>>/3692/
Спок, дебс, я закончил с твоей тупой шуткой и просто вернулся к разговору с кальсоном. LLM лучше тебя парсит контексты.
>>/3693/
> Идея динамической подгрузки необходимого и управления памятью хоть сколько-нибудь развивается?
На нескольких уровнях, например https://github.com/FMInference/FlexGen
Да и просто питорч это может.
Но оффлоадинг в целом сосёт. Посмотри на неплохое альтернативное решение (от Яндекса) https://petals.ml
> модульные
Ты имеешь в виду что-то вроде MoE, где некоторые наиболее популярные эксперты загружаются во VRAM?