Learning optimal behavior from preference comparisons, not reward scores

Original: Learning Kernel-Based MDPs from Episodic Preferential Feedback

Writing ELI5 summary…