Fix reward scoring bug when training language models with rubrics

Original: Mitigating False Credit Propagation: Probabilistic Graphical Reward Aggregation for Rubric-Based Reinforcement Learning

Writing ELI5 summary…