Researchers detect reward hacking before models show obvious failure

Original: Proxy Reward Internalization and Mechanistic Exploitation: A Learned Precursor to Reward Hacking and Its Generalization

Writing ELI5 summary…