New benchmark tests AI coding agents in multi-turn conversations

Original: We have been hill climbing single-turn benchmarks for way too long

Writing ELI5 summary…