thumbnail of examples.png
thumbnail of examples.png
examples png
(2.45 MB, 2560x1024)
 >>/1832/
Нет. Просто к значению пикселей добавляется ещё один канал – глубины. По сути это создание барельефа. MiDaS (или что-то лучше) даёт монокулярную оценку удалённости точек от гипотетического объектива, и это принимается во внимание при генерации, что особо полезно в img2img. Представь, что ты загружаешь какую-то банальную картинку (портрет тянки на дефолтном фоне городских окраин) и пытаешься её перерендерить в фентези-стиль с промтпом вроде ancient witch in the foreground, dreadful towers, medieval wells in the background. Плоская картинка может быть интерпретирована так, что глаза тянки станут бездонными колодцами, а многоэтажки в бэкграунде станут не башнями, а ещё двумя тянками. (В реальности будет не так, но для примера). Когда по оригиналу выстраивается карта глубины, она влияет на распределение внимания сети при рендеринге, и токены из фразы ancient witch in the foreground сосредотачиваются на объекте переднего плана, причём учитывая, где нос, а где уши. Это очередное приближение к человеческому восприятию сцен.