MMLU : tout le monde au-dessus de 95%, donc le benchmark ne mesure plus rien
Recherche & IA Petit récap pour ceux qui n'ont pas suivi les derniers leaderboards :
GPT-5 → 96,2 %
Claude 4 → 95,4 %
Gemini 2 → 94,1
6 commentaires
Tout est chargé · Lancer une nouvelle discussion