AI safety alignment bottleneck: training a multi-target reward model

Original: Been working on non-verifiable domains — open-domain QA last year, safety alignment this summer at MSR.

Writing ELI5 summary…