Weak teachers can train large language models effectively

Original: Strong Teacher Not Needed? On Distillation in LLM Pretraining

Writing ELI5 summary…