>>/3666/
>>/3680/
>>/3682/
Вся твоя идея с токенайзером это говно ёбаное. С таким подходом LLM стоит вообще забросить и вернуться к КальсонИИ.
Лучше сделай генератор causal latent structure на основе графа зависимых случайных переменных, семпли из него, вербализуй так или иначе, и так много раз для разных графов. На этом уже обучай нормальную LLM.
Алсо вот этим вдохновляйся https://arxiv.org/abs/2306.07536