RL compute scaling follows log-sigmoid law like in-context learning

Original: Hmm so scaling RL compute also follows log-sigmoid power law -- so in-context learning from env interactions and RL has a similar scaling structure https://t.co/nnPeM0Yzv8

Source: x.com ↗

Writing ELI5 summary…