Benchmarks et Évaluation

📖

个术语

MMLU (Massive Multitask Language Understanding)

Benchmark complet évaluant les connaissances et la résolution de problèmes des LLM sur 57 sujets allant des mathématiques à l'histoire, en utilisant un format de questions à choix multiples pour mesurer la compréhension générale et les capacités de raisonnement.

📖

个术语

HELM (Holistic Evaluation of Language Models)

Framework d'évaluation systématique qui mesure les LLM selon plusieurs dimensions incluant l'accuracy, la robustesse, l'équité, le biais, l'efficacité et l'impact environnemental, fournissant une vision complète des performances du modèle.

📖

个术语

GLUE (General Language Understanding Evaluation)

Ensemble de 9 tâches de NLP différentes conçues pour évaluer la compréhension linguistique générale, incluant la classification de sentiments, l'inférence linguistique et la similarité sémantique pour mesurer les capacités de compréhension multidimensionnelles.

📖

个术语

SuperGLUE

Version améliorée de GLUE proposant des tâches plus complexes nécessitant un raisonnement avancé, conçue spécifiquement pour évaluer les LLM modernes et éviter les performances plafond atteintes avec le benchmark GLUE original.

📖

个术语

BIG-bench (Beyond the Imitation Game Benchmark)

Collection collaborative de plus de 200 tâches d'évaluation créées par des chercheurs pour tester les limites des LLM, incluant des tâches de raisonnement, de mathématiques et de compréhension du langage naturel complexes.

📖

个术语

TruthfulQA

Benchmark conçu pour mesurer la tendance des LLM à générer des réponses vraies plutôt que de répéter des faux renseignements fréquemment trouvés dans les données d'entraînement, évaluant la capacité à distinguer vérité de fausseté.

📖

个术语

HumanEval

Ensemble de 164 problèmes de programmation Python créés par OpenAI pour évaluer la capacité des LLM à générer du code fonctionnel, mesurant la compréhension syntaxique et algorithmique à travers des tests unitaires automatisés.

📖

个术语

MATH (Mathematical Reasoning)

Dataset de problèmes mathématiques de niveau compétition évaluant les capacités de raisonnement mathématique des LLM, incluant algèbre, géométrie et théorie des nombres pour mesurer la résolution de problèmes complexes.

📖

个术语

HellaSwag

Benchmark testant la compréhension du sens commun et le raisonnement sur les scénarios de vie quotidienne, demandant aux modèles de choisir la fin de phrase la plus plausible parmi des options contextuellement cohérentes.

📖

个术语

ARC (AI2 Reasoning Challenge)

Ensemble de questions de sciences de niveau primaire et secondaire nécessitant un raisonnement complexe, conçu pour évaluer les capacités d'inférence et de compréhension scientifique des LLM avec des questions à choix multiples difficiles.

📖

个术语

SQuAD (Stanford Question Answering Dataset)

Dataset de référence pour l'évaluation des systèmes de questions-réponses extractives, contenant plus de 100 000 questions posées par des humains sur des articles Wikipedia, mesurant la capacité à localiser des informations précises dans un texte.

📖

个术语

Winogrande

Dataset de résolution d'ambiguïté anaphorique à grande échelle utilisant des schémas Winograd, testant la compréhension du sens commun à travers des phrases où la résolution correcte dépend de connaissances du monde réel.

📖

个术语

WinoBias

Dataset conçu pour évaluer les biais de genre dans les LLM, utilisant des phrases avec des stéréotypes occupationnels pour mesurer si les modèles favorisent implicitement certains genres dans des contextes professionnels spécifiques.

📖

个术语

BBH (Big-Bench Hard)

Sous-ensemble de 23 tâches particulièrement difficiles de BIG-bench sélectionnées car elles représentent les plus grands défis pour les LLM actuels, nécessitant des capacités de raisonnement multi-étapes et une compréhension profonde.

📖

个术语

MMLU-Pro

Version étendue de MMLU incluant des questions plus complexes nécessitant un raisonnement en plusieurs étapes, conçue pour mieux différencier les performances des modèles avancés avec des problèmes qui exigent une compréhension approfondie et des déductions logiques.

📖

个术语

GSM8K

Dataset de 8.5 milliers de problèmes mathématiques textuels de niveau scolaire exigeant un raisonnement multi-étapes, évaluant la capacité des LLM à comprendre des problèmes en langage naturel et à générer des solutions mathématiques cohérentes.

📖

个术语

Chain-of-Thought Evaluation

Méthodologie d'évaluation mesurant la capacité des LLM à générer des raisonnements étape par étape pour résoudre des problèmes complexes, évaluant non seulement la réponse finale mais aussi la qualité et la cohérence du processus de raisonnement.

AI 词汇表