thumbnail of Fi5GGbuXgAMcZS6.jpeg
thumbnail of Fi5GGbuXgAMcZS6.jpeg
Fi5GGbuXgAMcZS6 jpeg
(296.05 KB, 1216x1088)
# Обзор 25 ноября

Дропаю сюда отчёт из ноября, на который я забил. Чуть дополнен. 

Мораль сезона: продолжается слияние моделей и обобщение задач. 

## 1. Генеративные модели
### 1.1 звук 
https://ganstrument.github.io/ganstrument-demo/
https://github.com/LAION-AI/audio-dataset/tree/main/laion-audio-630k
https://github.com/LAION-AI/CLAP/tree/clap
https://github.com/minju0821/musical_instrument_retrieval

### статичные картинки
генерализация диффузии для задач преобразования между разными формами контента
In this work, we expand the existing single-flow diffusion pipeline into a multi-flow network, dubbed Versatile Diffusion (VD), that handles text-to-image, image-to-text, image-variation, and text-variation in one unified model. Moreover, we generalize VD to a unified multi-flow multimodal diffusion framework with grouped layers, swappable streams, and other propositions that can process modalities beyond images and text.
https://github.com/SHI-Labs/Versatile-Diffusion

Мета. Я ошибся вот здесь
 >>/6794298/
>  Они уже имеют достаточно опыта с предыдущими моделями, так что я не ожидаю серьёзных ошибок и многих перезапусков training run, и скорее всего у них уже есть сырая версия. Уверен, что в течение двух недель с этого дня они должны показать какой-то тизер, когда приблизятся к плато. 
В итоге показали 24 ноября, где-то через месяц с моего прогноза.
Что показали? Разрешение до 3к на 3к с нативным апскейлом, например. Оценку глубины, более быстрый инференс, лучший инпейнт. В общем, ничего революционного, просто очередная платформа для экспериментов. Пальцы, таки, не починили, но грозятся починить в 2.1.

А команда Вайфу-Диффузии сообщила, что 
>  1 декабря мы публично выпустим четвертую итерацию Waifu Diffusion. …
>  - Будет использован предпоследний слой CLIP. (Заслуги принадлежат команде NAI и Google AI Research)
>  - Лимит токенов CLIP будет увеличен в 3 раза.
>  - Будет использован обновлённый автоэнкодер, отлаженный на 250 тыс. изображений в стиле аниме, что повысит способность модели создавать более мелкие детали (глаза, пальцы и т.д.).
Ю Полный обзор списка улучшений представлен здесь: https://gist.github.com/harubaru/313eec09026bb4090f4939d01f79a7e7.

C тех пор они сдвинули срок ещё до 26 декабря из-за выхода stable diffusion 2 и проблем со своей базой данных.
Вероятно это в целом намекает на поспешность моих прогнозов – хотя я считаю, что в горизонте недель дисперсия ошибки больше, чем в горизонте годов.

Вышла большая модель от сбербанка, к сожалению всем уже плевать https://huggingface.co/sberbank-ai/Kandinsky_2.0 

Ускорения и оптимизации: 
- Stable Diffusion на айфоне, 1.6 гб и картинка за минуту, и это не предел (ожидается, что можно сжать потребление памяти ещё на 30% и время инференса на 15%)
https://liuliu.me/eyes/stretch-iphone-to-its-limit-a-2gib-model-that-can-draw-everything-in-your-pocket/
- Distilled Stable Diffusion даёт за 2-4 итерации качество, раньше требовавшее 20+ https://twitter.com/hardmaru/status/1598229106319331330
- Емад говорит, что с новыми трюками на чипах Nvidia (A100, видимо) 50 итераций можно довести до 0.9 секунд, так что очевидно, что реалтайм-видео не за горами. https://twitter.com/EMostaque/status/1598131202044866560

https://huggingface.co/spaces/runwayml/stable-diffusion-v1-5 – ускорение Jax и новыми солверами (4*45 шагов за 10 секунд).