Step-by-step pipeline trains tiny 135M model for targeted reasoning tasks

Original: Training end to end reasoning models on long-form QA tasks! 🚀

Writing ELI5 summary…