thumbnail of first_fig.png
thumbnail of first_fig.png
first_fig png
(1.49 MB, 1784x629)
## 2. классификаторы.
Текстовые энкодеры на основе распознавания акустики легко усиливаются добавлением семантической информации, это может добить оставшиеся ошибки систем вроде whisper. 
https://arxiv.org/abs/2211.08402
https://github.com/microsoft/FocalNet – vision classifier
https://mind-vis.github.io – декодирование человеческого зрения из МРТ

https://github.com/SHI-Labs/OneFormer –  OneFormer: One Transformer to Rule Universal Image Segmentation
https://github.com/JialianW/GRiT – по сути сегментация/классификация/подробное описание объектов на изображениях.

Классификация движения, монокулярное стерео-зрение, оценка глубины в рамках одной модели.
Did you know that SotA flow, stereo and depth results can be obtained using simple winner-takes all feature correlation without cost-volume post-processing? Impossible? Then try out our new UniMatch model: [https://haofeixu.github.io/unimatch/](https://t.co/aT7EUGbMbx) [https://arxiv.org/abs/2211.05783](https://t.co/HJOnxmlHuD)

К вопросу зрелых бенчмарков
TAP-Vid - эталон в области анализа движения на видео
DeepMind формализовали задачу долгосрочного отслеживания любой точки на видео (TAP, track any point), включая деформацию, ускорения, повороты, перекрытие другими объектами. 
https://arxiv.org/abs/2211.03726

## 3. языковые модели и всё с ними связанное
https://metaphor.systems – поиск через контекстуальное дополнение запроса ссылками. До смешного превосходит гугл. 
https://huggingface.co/blog/introducing-csearch contrastive search – новый алгоритм сэмплинга, который выжимает радикально более естественные ответы из тех же моделей. 
https://arxiv.org/abs/2211.07730 – трансформер для работы с документами. 
https://arxiv.org/abs/2211.05030 –  "креативных" писак заставили использовать языковую модель
https://wordcraft-writers-workshop.appspot.com

https://arxiv.org/abs/2211.03940  Анон, хотевший нейродочку, посмотри, этим будут дообучать модели
we propose task-oriented dialogs for montage creation as a novel interactive tool to seamlessly search, compile, and edit montages from a media collection. To the best of our knowledge, our work is the first to leverage multi-turn conversations for such a challenging application, extending the previous literature studying simple media retrieval tasks. We collect a new dataset C3 (Conversational Content Creation), comprising 10k dialogs conditioned on media montages simulated from a large media collection.   
We take a simulate-and-paraphrase approach to collect these dialogs to be both cost and time efficient, while drawing from natural language distribution. Our analysis and benchmarking of state-of-the-art language models showcase the multimodal challenges present in the dataset. Lastly, we present a real-world mobile demo application that shows the feasibility of the proposed work in real-world applications. Our code and data will be made publicly available.