Benchmarks et Évaluation - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

MMLU (Massive Multitask Language Understanding)

Benchmark complet évaluant les connaissances et la résolution de problèmes des LLM sur 57 sujets allant des mathématiques à l'histoire, en utilisant un format de questions à choix multiples pour mesurer la compréhension générale et les capacités de raisonnement.

📖

शब्द

HELM (Holistic Evaluation of Language Models)

Framework d'évaluation systématique qui mesure les LLM selon plusieurs dimensions incluant l'accuracy, la robustesse, l'équité, le biais, l'efficacité et l'impact environnemental, fournissant une vision complète des performances du modèle.

📖

शब्द

GLUE (General Language Understanding Evaluation)

Ensemble de 9 tâches de NLP différentes conçues pour évaluer la compréhension linguistique générale, incluant la classification de sentiments, l'inférence linguistique et la similarité sémantique pour mesurer les capacités de compréhension multidimensionnelles.

📖

शब्द

SuperGLUE

Version améliorée de GLUE proposant des tâches plus complexes nécessitant un raisonnement avancé, conçue spécifiquement pour évaluer les LLM modernes et éviter les performances plafond atteintes avec le benchmark GLUE original.

📖

शब्द

BIG-bench (Beyond the Imitation Game Benchmark)

Collection collaborative de plus de 200 tâches d'évaluation créées par des chercheurs pour tester les limites des LLM, incluant des tâches de raisonnement, de mathématiques et de compréhension du langage naturel complexes.

📖

शब्द

TruthfulQA

Benchmark conçu pour mesurer la tendance des LLM à générer des réponses vraies plutôt que de répéter des faux renseignements fréquemment trouvés dans les données d'entraînement, évaluant la capacité à distinguer vérité de fausseté.

📖

शब्द

HumanEval

Ensemble de 164 problèmes de programmation Python créés par OpenAI pour évaluer la capacité des LLM à générer du code fonctionnel, mesurant la compréhension syntaxique et algorithmique à travers des tests unitaires automatisés.

📖

शब्द

MATH (Mathematical Reasoning)

Dataset de problèmes mathématiques de niveau compétition évaluant les capacités de raisonnement mathématique des LLM, incluant algèbre, géométrie et théorie des nombres pour mesurer la résolution de problèmes complexes.

📖

शब्द

HellaSwag

Benchmark testant la compréhension du sens commun et le raisonnement sur les scénarios de vie quotidienne, demandant aux modèles de choisir la fin de phrase la plus plausible parmi des options contextuellement cohérentes.

📖

शब्द

ARC (AI2 Reasoning Challenge)

Ensemble de questions de sciences de niveau primaire et secondaire nécessitant un raisonnement complexe, conçu pour évaluer les capacités d'inférence et de compréhension scientifique des LLM avec des questions à choix multiples difficiles.

📖

शब्द

SQuAD (Stanford Question Answering Dataset)

Dataset de référence pour l'évaluation des systèmes de questions-réponses extractives, contenant plus de 100 000 questions posées par des humains sur des articles Wikipedia, mesurant la capacité à localiser des informations précises dans un texte.

📖

शब्द

Winogrande

Dataset de résolution d'ambiguïté anaphorique à grande échelle utilisant des schémas Winograd, testant la compréhension du sens commun à travers des phrases où la résolution correcte dépend de connaissances du monde réel.

📖

शब्द

WinoBias

Dataset conçu pour évaluer les biais de genre dans les LLM, utilisant des phrases avec des stéréotypes occupationnels pour mesurer si les modèles favorisent implicitement certains genres dans des contextes professionnels spécifiques.

📖

शब्द

BBH (Big-Bench Hard)

Sous-ensemble de 23 tâches particulièrement difficiles de BIG-bench sélectionnées car elles représentent les plus grands défis pour les LLM actuels, nécessitant des capacités de raisonnement multi-étapes et une compréhension profonde.

📖

शब्द

MMLU-Pro

Version étendue de MMLU incluant des questions plus complexes nécessitant un raisonnement en plusieurs étapes, conçue pour mieux différencier les performances des modèles avancés avec des problèmes qui exigent une compréhension approfondie et des déductions logiques.

📖

शब्द

GSM8K

Dataset de 8.5 milliers de problèmes mathématiques textuels de niveau scolaire exigeant un raisonnement multi-étapes, évaluant la capacité des LLM à comprendre des problèmes en langage naturel et à générer des solutions mathématiques cohérentes.

📖

शब्द

Chain-of-Thought Evaluation

Méthodologie d'évaluation mesurant la capacité des LLM à générer des raisonnements étape par étape pour résoudre des problèmes complexes, évaluant non seulement la réponse finale mais aussi la qualité et la cohérence du processus de raisonnement.

एआई शब्दावली

MMLU (Massive Multitask Language Understanding)

HELM (Holistic Evaluation of Language Models)

GLUE (General Language Understanding Evaluation)

SuperGLUE

BIG-bench (Beyond the Imitation Game Benchmark)

TruthfulQA

HumanEval

MATH (Mathematical Reasoning)

HellaSwag

ARC (AI2 Reasoning Challenge)

SQuAD (Stanford Question Answering Dataset)

Winogrande

WinoBias

BBH (Big-Bench Hard)

MMLU-Pro

GSM8K

Chain-of-Thought Evaluation

कोई परिणाम नहीं मिला