>>/3779/
> В чём у ей проблема интерпретировать текст запроса как набор байт?
BPE колоссально удешевляет и упрощает как обучение так и инференс, и вообще всю логику системы.
У них фиксированный словарь. У лламы там 32к токенов, ничего другого для неё не существует.
Есть статьи
https://arxiv.org/abs/2306.00238
https://arxiv.org/abs/2305.07185
решающие твою задачу, но пока я не в курсе чтобы из этого сделали что-то product-grade.
>
Вообще, дорогие, я думаю что русскоязычную LLM надо обучить на архиве non-fiction Флибусты, lib.ru, libgen-а, гуманитарной, исторической и философской литературе.
Да.
Самая разумная база для этого - вероятно, Qwen-14B, у него огромный словарь без биаса по размеру токенов\плотности сжатия в разных языках.
Данных достаточно, да не тех – мы же не литературную модель обучаем, нужно что-то, что понимает снэпшоты современного интернета и может говорить. Это довольно серьёзная задача инжиниринга данных.
С обучением бида, проще скинуться и попросить какого-нибудь американца (ибо нам не положены современные чипы). Благо, наконец завезли FP8 для H100.
Тем временем, кальсоныч, как там хайп и пузырь? Байден и король Британии в курсе, что это всё просто очковтирательство чтобы заработать классы?