New optimizer method trains sparse transformer networks reliably

Original: HORST: Composing Optimizer Geometries for Sparse Transformer Training

Writing ELI5 summary…