arXivWujiang Xu, Yu Wang, Kai Mei, Kaiqu Liang, Zhenting Wang, Mingyu Jin, Han Zhang, Shi-Xiong Zhang, Wenyue Hua, Sambit Sahu, Dimitris N. MetaxasWed, May 20, 2026, 12:25 AM PDT

score 16.9

MemGym: Benchmark for AI Agents Remembering Tasks Over Long Projects

Original: MemGym: a Long-Horizon Memory Environment for LLM Agents

Source: arxiv.org ↗

Writing ELI5 summary…