MMLU : tout le monde au-dessus de 95%, donc le benchmark ne mesure plus rien
Petit récap pour ceux qui n'ont pas suivi les derniers leaderboards :
GPT-5 → 96,2 %
Claude 4 → 95,4 %
Gemini 2 → 94,1 %
Mistral Large 3 → 91,8 %
Llama 4 → 90,7 %
Quand votre échantillon entier est dans une fourchette de 6 points en tête de classement, votre instrument de mesure ne discrimine plus rien, il mesure du bruit.
Je ne comprends même pas qu'on continue à publier des résultats MMLU dans les keynotes. Allez voir GPQA-Diamond ou ARC-AGI-2 si vous voulez du vrai signal. Les chiffres y sont autrement plus humbles (et donc autrement plus utiles aux investisseurs).
5
6 commentaires