Training one transformer layer can match full-model reinforcement learning

Original: What if most RL gains come from 1 transformer layer?

Writing ELI5 summary…

Training one transformer layer can match full-model reinforcement learning · TinyNews · TinyNews