EdgeBench benchmark tests AI agents on 12-72 hour tasks

Original: Nice long-horizon benchmark!

Writing ELI5 summary…

EdgeBench benchmark tests AI agents on 12-72 hour tasks · TinyNews · TinyNews