AI agents learn better by fixing individual step mistakes, not whole trajectories

Original: StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning

Writing ELI5 summary…