Unsupervised discovery of hidden reasoning patterns in language models

Original: Shared Semantics, Divergent Mechanisms: Unsupervised Feature Discovery by Aligning Semantics and Mechanisms

Writing ELI5 summary…