- Endchan Magrathea

Доброчанька
7/20/2023 06:58:00 No. 3694 [Open] [Reply]
 >>/3692/
Спок, дебс, я закончил с твоей тупой шуткой и просто вернулся к разговору с кальсоном. LLM лучше тебя парсит контексты.

 >>/3693/
>  Идея динамической подгрузки необходимого и управления памятью хоть сколько-нибудь развивается?
На нескольких уровнях, например https://github.com/FMInference/FlexGen
Да и просто питорч это может.

Но оффлоадинг в целом сосёт. Посмотри на неплохое альтернативное решение (от Яндекса) https://petals.ml

>  модульные
Ты имеешь в виду что-то вроде MoE, где некоторые наиболее популярные эксперты загружаются во VRAM?