arXivHan Zhou, Adam X. Yang, Laurence Aitchison, Anna Korhonen, Albert Q. JiangMon, Jun 8, 2026, 4:57 AM PDT

score 17.1

AI judges compare reasoning traces when rewards are all equal

Original: Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

Writing ELI5 summary…