New benchmark tests coding agents on real multi-turn dialogues

Original: RT @yifannnwu: Introducing SWE-Together: a multi-turn benchmark built from real user–agent coding sessions.

Writing ELI5 summary…