- Endchan Magrathea

Доброчанька
11/1/2023 17:14:00 No. 3779 [Open] [Reply]
1698181962289 jpg
(243.51 KB, 1042x789)
4rw1o1ykrexb1 jpg
(730.64 KB, 3072x4096)
 >>/3588/
>  Что он не умеет считать буквы? Да, не умеет. Потому что он их не видит
В чём у ей проблема интерпретировать текст запроса как набор байт?

 >>/3776/
Где-то видел мельком, что именно из-за побуквенности чатжпт плох на русском. Что-то вроде так быстрее выходит за лимит доступный для генерирования.


Вообще, дорогие, я думаю что русскоязычную LLM надо обучить на архиве non-fiction Флибусты, lib.ru, libgen-а, гуманитарной, исторической и философской литературе. Это можем сделать только мы, из-за копиразма в остальном мире (из-за чего огромная индексированная коллекция книг Google Books остается полузакрытой и это не планирует измениться). Корпы так же этого не сделают из-за своей прогибаемости, ссыкливости и бздливости. Только энтузиасты.
Я мечтаю, что анонимы всех руборд, забыв распри, начнут такое дистрибутед обучение. На удивление, сосаки наиболее способны к продуктивной кооперации. Оставив организационные вопросы, знатоки, возможно ли это в разрезе
1. Этих бибилотечных данных хватит до сих пор позорно прожорливым до них моделям? Если нет, заменится ли файнтюном или чем-то в этом роде?
2. Распределенное обучение на чайниках существует? Помню тот крик когда-то у технарей везде про map-reduce.