Popular metric for evaluating text generation models is fundamentally broken

Original: Hacking Generative Perplexity: Why Unconditional Text Evaluation Needs Distributional Metrics

Writing ELI5 summary…