Actions
teaser jpg
(816.38 KB, 2000x1014)
(816.38 KB, 2000x1014)
Продолжается прогресс в image editing, котроле и интерпретируемости генераций, с подозрительным преобладанием израильских авторов.
https://www.timothybrooks.com/instruct-pix2pix – святой грааль image editing, преобразование картинки по техзаданию на естественном языке. Обучено на парах, сгенеренных по промптам из GPT-3.
Null-text Inversion for Editing Real Images using Guided Diffusion Models [https://arxiv.org/abs/2211.09794](https://t.co/ezB359waHM) https://twitter.com/arankomatsuzaki/status/1593418723632693248 – типичная израильская статья в этом же жанре. Изображение (не важно, генерированное или естественное) реконструируется как генерация, после чего его можно регенерировать в желаемую сторону. Впрочем, как обычно, сохраняется глобальная структура картинки.
И ещё один механизм редактирования изображений через диффузию, в этот раз фишка в скорости инференса, точности и настраиваемости силы изменений. https://arxiv.org/abs/2211.07825
dreamartist – новый уровень текстовой инверсии для stable diffusion, выучивание стиля или объекта с *одной* картинки-примера https://github.com/7eu7d7/DreamArtist-stable-diffusion
https://github.com/dome272/Paella – ещё одна быстрая диффузия, 500 мс на картинку.
https://mobile.twitter.com/lexicaart – поисковый движок для SD-генераций Lexica обучил собственную, довольно качественную, модель.
Бонусы:
http://lj.rossia.org/~tiphareth/2471743.html – вербит опять угорает с генераций.
Исследовательское: можно видеть, как по картинке распределён attention сети относительно каждого слова, насколько эти слова вообще понимаются.
https://huggingface.co/spaces/tetrisd/Diffusion-Attentive-Attribution-Maps
Baidu показали алгоритм сжатия изображений при помощи обучения текстовых эмбеддингов диффузии, достигается приличное качество при 0.07 битах на пиксель.
https://arxiv.org/pdf/2211.07793.pdf
https://huggingface.co/BAAI/AltDiffusion-m9 – многоязычная stable diffusion
### 3d-генерация и связанное
Тут продолжается победное шествие NeRF.
https://github.com/eladrich/latent-nerf
https://huggingface.co/spaces/MirageML/sjc
https://lisiyao21.github.io/projects/AnimeRun
https://github.com/fengres/mixvoxels
https://sparsefusion.github.io
### видео-генерация
https://kfmei.page/vidm/