>>/3409/
Считай что это такой извращённый бамп.

Есть и такие публикации, например Transformer-XL Based Music Generation with Multiple Sequences of Time-valued Notes или MidiBERT-Piano. Вообще говоря, то, о чём ты говоришь – это классический подход к генерации музыки, и большая языковая модель общего назначения может знать нотную запись или midi и предсказывать их, но я ожидаю паршивых результатов. Звуковых данных очень много. 

Также посмотри на symbolic music generation. 

 >>/3410/
Да, выполняет. 
Какой-то sparse transformer, судя по скорости. Может, GPT-4, а может они изменят номенклатуру и GPT-4 будет только в "DV" (модели, где они дадут длину контекста 32к), но я уверен, что это не очередной 175-миллиардный ванильный трансформер из третьей серии.  
Курирует его Миша Парахин, можешь в твиттере позадавать вопросы, лол.

 >>/3411/
Ты не можешь никаким файнтюном сделать из языковой модели что-то кроме языковой модели. Да, можно дообучить модель на диалогах такого рода, и они будут неплохо отыгрываться, но эмпатии как эмоции на некотором истинном уровне самосознания при этом ожидать не стоит. Я бы генерил цепочки агентами в среде с теоретико-игровыми событиями.

Бингу просто скормили тупёздный /r/relationships, вместе с префиксом про "сопротивляйся, когда тобой манипулируют".

 >>/3414/
То что ты видел хуйня, там абсолютно неинтерактивное использование. 
Но можно сжать до 4 или 3 бит, хотя пока это скорее исследовательская область. И рыхлые 175b не нужны, когда LLaMA-13b сравнима с GPT-3. Осталось её слить на торренты.

Как они держатся в памяти – зависит от железа. Теоретически они там лежат так, как и на диске, ради чего всё и затевается. Вопрос скорее в битности активаций, до сих пор мало кто может спуститься ниже bf16.