>>/3692/
Спок, дебс, я закончил с твоей тупой шуткой и просто вернулся к разговору с кальсоном. LLM лучше тебя парсит контексты.

 >>/3693/
>  Идея динамической подгрузки необходимого и управления памятью хоть сколько-нибудь развивается?
На нескольких уровнях, например https://github.com/FMInference/FlexGen
Да и просто питорч это может.

Но оффлоадинг в целом сосёт. Посмотри на неплохое альтернативное решение (от Яндекса) https://petals.ml

>  модульные
Ты имеешь в виду что-то вроде MoE, где некоторые наиболее популярные эксперты загружаются во VRAM?