Actions
Fi5GGbuXgAMcZS6 jpeg
(296.05 KB, 1216x1088)
(296.05 KB, 1216x1088)
# Обзор 25 ноября Дропаю сюда отчёт из ноября, на который я забил. Чуть дополнен. Мораль сезона: продолжается слияние моделей и обобщение задач. ## 1. Генеративные модели ### 1.1 звук https://ganstrument.github.io/ganstrument-demo/ https://github.com/LAION-AI/audio-dataset/tree/main/laion-audio-630k https://github.com/LAION-AI/CLAP/tree/clap https://github.com/minju0821/musical_instrument_retrieval ### статичные картинки генерализация диффузии для задач преобразования между разными формами контента In this work, we expand the existing single-flow diffusion pipeline into a multi-flow network, dubbed Versatile Diffusion (VD), that handles text-to-image, image-to-text, image-variation, and text-variation in one unified model. Moreover, we generalize VD to a unified multi-flow multimodal diffusion framework with grouped layers, swappable streams, and other propositions that can process modalities beyond images and text. https://github.com/SHI-Labs/Versatile-Diffusion Мета. Я ошибся вот здесь >>/6794298/ > Они уже имеют достаточно опыта с предыдущими моделями, так что я не ожидаю серьёзных ошибок и многих перезапусков training run, и скорее всего у них уже есть сырая версия. Уверен, что в течение двух недель с этого дня они должны показать какой-то тизер, когда приблизятся к плато. В итоге показали 24 ноября, где-то через месяц с моего прогноза. Что показали? Разрешение до 3к на 3к с нативным апскейлом, например. Оценку глубины, более быстрый инференс, лучший инпейнт. В общем, ничего революционного, просто очередная платформа для экспериментов. Пальцы, таки, не починили, но грозятся починить в 2.1. А команда Вайфу-Диффузии сообщила, что > 1 декабря мы публично выпустим четвертую итерацию Waifu Diffusion. … > - Будет использован предпоследний слой CLIP. (Заслуги принадлежат команде NAI и Google AI Research) > - Лимит токенов CLIP будет увеличен в 3 раза. > - Будет использован обновлённый автоэнкодер, отлаженный на 250 тыс. изображений в стиле аниме, что повысит способность модели создавать более мелкие детали (глаза, пальцы и т.д.). Ю Полный обзор списка улучшений представлен здесь: https://gist.github.com/harubaru/313eec09026bb4090f4939d01f79a7e7. C тех пор они сдвинули срок ещё до 26 декабря из-за выхода stable diffusion 2 и проблем со своей базой данных. Вероятно это в целом намекает на поспешность моих прогнозов – хотя я считаю, что в горизонте недель дисперсия ошибки больше, чем в горизонте годов. Вышла большая модель от сбербанка, к сожалению всем уже плевать https://huggingface.co/sberbank-ai/Kandinsky_2.0 Ускорения и оптимизации: - Stable Diffusion на айфоне, 1.6 гб и картинка за минуту, и это не предел (ожидается, что можно сжать потребление памяти ещё на 30% и время инференса на 15%) https://liuliu.me/eyes/stretch-iphone-to-its-limit-a-2gib-model-that-can-draw-everything-in-your-pocket/ - Distilled Stable Diffusion даёт за 2-4 итерации качество, раньше требовавшее 20+ https://twitter.com/hardmaru/status/1598229106319331330 - Емад говорит, что с новыми трюками на чипах Nvidia (A100, видимо) 50 итераций можно довести до 0.9 секунд, так что очевидно, что реалтайм-видео не за горами. https://twitter.com/EMostaque/status/1598131202044866560 https://huggingface.co/spaces/runwayml/stable-diffusion-v1-5 – ускорение Jax и новыми солверами (4*45 шагов за 10 секунд).