Language models hide banned concepts despite appearing suppressed

Original: The Attentional White Bear Effect in Transformer Language Models

Writing ELI5 summary…