6zuazazouqna1 jpg
(704.01 KB, 1752x1769)
>>/3476/
Думаю, что
- есть ещё очень много неиспользованного обучающего материала, например почти весь ютюб и почти все дампы переписок и разговоров, которые доступны корпоратам, не говоря уж о государствах и специальных агентствах
- большие модели лучше могут в 0-shot, у них выше и sample efficiency в тренинге, так что не следует ожидать убывающих профитов от объёма
- мультимодальность в большом масштабе тоже повысит sample efficiency, как она повышает его для человека
- embodied приор ещё сильно повысит
- ChatGPT-плагины и подобные подходы сильно понизят требование к выучиванию низкоуровневых навыков и меморизации, и освободят параметры для генерализации
- новые архитектуры (даже новые вариации трансформера), обжективы и так далее более эффективны
- подозреваю, что на самом деле важнее не объём данных, а data pruning и файнтюнинг на данных высокого качества, это доказывают старые, слабые маленькие модели, которые резко умнеют от тюнинга на альпака-датасете (жалкие 50к пар инструкций)
- синтетические данные очень эффективны
- большие модели уже могут самоулучшаться, генерируя себе материалы для файнтюна на основе сильных примеров и отсеивая левую половину распределения генераций, и чем они больше и мощнее – тем больше выигрыш от такой медитации
И так далее. Возможности этого поколения моделей нельзя объяснить просто тем, что в них запихнули больше данных, чем в прошлые; и в загашнике ещё десятки статей, которые продолжают сдвигать парето-кривую.
>>/3477/
> дебик нароллил плохой ответ
Ну нихуя себе.
Тем временем gpt-4 объясняет мем на твоей картинке, вероятно лучше, чем ты его сам понимаешь.