Medical AI models fail unpredictably when prompts are slightly reworded

Original: When Large Language Models Fail in Healthcare: Evaluating Sensitivity to Prompt Variations

Writing ELI5 summary…