arXivZinan Tang, Yukun Zhang, Shaomian Zheng, Zhuoshi Pan, Qizhi Pei, Dingnan Jin, Jun Zhou, Yujun Wang, Biqing HuangWed, Jul 1, 2026, 8:56 AM PDT

score 17.1

New method uses causal inference to optimize data mixing for LLM training

Original: CausalMix: Data Mixture as Causal Inference for Language Model Training

Writing ELI5 summary…