Tri Dao on the GPU kernel powering every large language model

Original: Tri Dao wrote FlashAttention, the GPU kernel running inside every large language model on earth.

Writing ELI5 summary…