New method trains AI models to handle multiple reward goals simultaneously

Original: It's never made sense to me that RL collapses all reward signals to a single scalar. Today, we fix that!

Writing ELI5 summary…