arXivPaavo Parmas, Yongmin Kim, Kohsei Matsutani, Shota Takashiro, Soichiro Nishimori, Takeshi Kojima, Yusuke Iwasawa, Yutaka MatsuoThu, Jun 4, 2026, 5:34 AM PDT

score 16.9

New gradient method optimizes for worst-case and best outcomes, not just average

Original: OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation

Source: arxiv.org ↗

Writing ELI5 summary…