arXivJiarui Yao, Xiangxin Zhou, Penghui Qi, Wee Sun Lee, Liefeng Bo, Tianyu PangMon, Jun 8, 2026, 10:58 AM PDT

score 17.2

Smoother safety guardrails improve AI training stability

Original: Rethinking the Divergence Regularization in LLM RL

Writing ELI5 summary…