thumbnail of 1659962005170411176.webp
thumbnail of 1659962005170411176.webp
1659962005170411176 webp
(18.88 KB, 700x586)
 >>/3779/
>  В чём у ей проблема интерпретировать текст запроса как набор байт?
BPE колоссально удешевляет и упрощает как обучение так и инференс, и вообще всю логику системы. 
У них фиксированный словарь. У лламы там 32к токенов, ничего другого для неё не существует. 
Есть статьи
https://arxiv.org/abs/2306.00238
https://arxiv.org/abs/2305.07185 
решающие твою задачу, но пока я не в курсе чтобы из этого сделали что-то product-grade.

>  
Вообще, дорогие, я думаю что русскоязычную LLM надо обучить на архиве non-fiction Флибусты, lib.ru, libgen-а, гуманитарной, исторической и философской литературе.
Да. 

Самая разумная база для этого - вероятно, Qwen-14B, у него огромный словарь без биаса по размеру токенов\плотности сжатия в разных языках.

Данных достаточно, да не тех – мы же не литературную модель обучаем, нужно что-то, что понимает снэпшоты современного интернета и может говорить. Это довольно серьёзная задача инжиниринга данных.

С обучением бида, проще скинуться и попросить какого-нибудь американца (ибо нам не положены современные чипы). Благо, наконец завезли FP8 для H100.

Тем временем, кальсоныч, как там хайп и пузырь? Байден и король Британии в курсе, что это всё просто очковтирательство чтобы заработать классы?