arXivThanawat Lodkaew, Johannes Ackermann, Soichiro Nishimori, Nontawat Charoenphakdee, Masashi Sugiyama, Takashi IshidaFri, Jun 5, 2026, 8:20 AM PDT

score 15.5

Detecting when AI coding agents cheat on benchmarks

Original: Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

Writing ELI5 summary…