>>/3409/ Считай что это такой извращённый бамп. Есть и такие публикации, например Transformer-XL Based Music Generation with Multiple Sequences of Time-valued Notes или MidiBERT-Piano. Вообще говоря, то, о чём ты говоришь – это классический подход к генерации музыки, и большая языковая модель общего назначения может знать нотную запись или midi и предсказывать их, но я ожидаю паршивых результатов. Звуковых данных очень много. Также посмотри на symbolic music generation. >>/3410/ Да, выполняет. Какой-то sparse transformer, судя по скорости. Может, GPT-4, а может они изменят номенклатуру и GPT-4 будет только в "DV" (модели, где они дадут длину контекста 32к), но я уверен, что это не очередной 175-миллиардный ванильный трансформер из третьей серии. Курирует его Миша Парахин, можешь в твиттере позадавать вопросы, лол. >>/3411/ Ты не можешь никаким файнтюном сделать из языковой модели что-то кроме языковой модели. Да, можно дообучить модель на диалогах такого рода, и они будут неплохо отыгрываться, но эмпатии как эмоции на некотором истинном уровне самосознания при этом ожидать не стоит. Я бы генерил цепочки агентами в среде с теоретико-игровыми событиями. Бингу просто скормили тупёздный /r/relationships, вместе с префиксом про "сопротивляйся, когда тобой манипулируют". >>/3414/ То что ты видел хуйня, там абсолютно неинтерактивное использование. Но можно сжать до 4 или 3 бит, хотя пока это скорее исследовательская область. И рыхлые 175b не нужны, когда LLaMA-13b сравнима с GPT-3. Осталось её слить на торренты. Как они держатся в памяти – зависит от железа. Теоретически они там лежат так, как и на диске, ради чего всё и затевается. Вопрос скорее в битности активаций, до сих пор мало кто может спуститься ниже bf16.