>>/3533/
>>/3536/
>>/3537/
Успокойтесь, ничего не over. Он просто сказал то, что я уже давно говорю, и что всем было понятно с Шиншиллы, модели можно делать мощнее и умнее без увеличения числа параметров, для начала тупо более длительным обучением на более объёмных данных. GPT-3 это 175 миллиардов параметров и 500 миллиардов токенов, 1:3. Шиншилла это 70/1400, 1:20. В статье Лламы тоже видно, что 7B продолжала снижать лосс после 1 триллиона токенов, 1/143. Емад сейчас грозится обучить 3B на 3T, то есть 1:1000. Это более дешёвый подход к обучению и колоссально более дешёвый подход к инференсу. Проблема в том, что с такими пропорциями для больших моделей не хватит данных, но это решается мультимодальностью и синтетическими данными, которые для визуальных моделей уже сравнимы по эффективности с натуральными.