>>/3666/
 >>/3680/
 >>/3682/

Вся твоя идея с токенайзером это говно ёбаное. С таким подходом LLM стоит вообще забросить и вернуться к КальсонИИ. 

Лучше сделай генератор causal latent structure на основе графа зависимых случайных переменных, семпли из него, вербализуй так или иначе, и так много раз для разных графов. На этом уже обучай нормальную LLM.

Алсо вот этим вдохновляйся https://arxiv.org/abs/2306.07536