New method finds cleaner mental models inside AI language systems

Original: Subspace-Aware Sparse Autoencoders for Effective Mechanistic Interpretability

Writing ELI5 summary…