Глоссарий ИИ
Полный словарь искусственного интеллекта
MMLU (Massive Multitask Language Understanding)
Benchmark complet évaluant les connaissances et la résolution de problèmes des LLM sur 57 sujets allant des mathématiques à l'histoire, en utilisant un format de questions à choix multiples pour mesurer la compréhension générale et les capacités de raisonnement.
HELM (Holistic Evaluation of Language Models)
Framework d'évaluation systématique qui mesure les LLM selon plusieurs dimensions incluant l'accuracy, la robustesse, l'équité, le biais, l'efficacité et l'impact environnemental, fournissant une vision complète des performances du modèle.
GLUE (General Language Understanding Evaluation)
Ensemble de 9 tâches de NLP différentes conçues pour évaluer la compréhension linguistique générale, incluant la classification de sentiments, l'inférence linguistique et la similarité sémantique pour mesurer les capacités de compréhension multidimensionnelles.
SuperGLUE
Version améliorée de GLUE proposant des tâches plus complexes nécessitant un raisonnement avancé, conçue spécifiquement pour évaluer les LLM modernes et éviter les performances plafond atteintes avec le benchmark GLUE original.
BIG-bench (Beyond the Imitation Game Benchmark)
Collection collaborative de plus de 200 tâches d'évaluation créées par des chercheurs pour tester les limites des LLM, incluant des tâches de raisonnement, de mathématiques et de compréhension du langage naturel complexes.
TruthfulQA
Benchmark conçu pour mesurer la tendance des LLM à générer des réponses vraies plutôt que de répéter des faux renseignements fréquemment trouvés dans les données d'entraînement, évaluant la capacité à distinguer vérité de fausseté.
HumanEval
Ensemble de 164 problèmes de programmation Python créés par OpenAI pour évaluer la capacité des LLM à générer du code fonctionnel, mesurant la compréhension syntaxique et algorithmique à travers des tests unitaires automatisés.
MATH (Mathematical Reasoning)
Dataset de problèmes mathématiques de niveau compétition évaluant les capacités de raisonnement mathématique des LLM, incluant algèbre, géométrie et théorie des nombres pour mesurer la résolution de problèmes complexes.
HellaSwag
Бенчмарк, тестирующий понимание здравого смысла и рассуждения о повседневных жизненных сценариях, требующий от моделей выбора наиболее правдоподобного завершения предложения среди контекстуально согласованных вариантов.
ARC (AI2 Reasoning Challenge)
Набор вопросов по естественным наукам для начальной и средней школы, требующий сложных рассуждений, разработанный для оценки способностей к выводу и научному пониманию у LLM с помощью сложных вопросов с несколькими вариантами ответа.
SQuAD (Stanford Question Answering Dataset)
Эталонный набор данных для оценки систем извлечения вопросов и ответов, содержащий более 100 000 вопросов, заданных людьми к статьям Википедии, измеряющий способность находить точную информацию в тексте.
Winogrande
Масштабный набор данных для разрешения анафорической неоднозначности с использованием схем Винограда, тестирующий понимание здравого смысла через предложения, в которых правильное разрешение зависит от знаний о реальном мире.
WinoBias
Набор данных, разработанный для оценки гендерных предубеждений в LLM, использующий предложения с профессиональными стереотипами для измерения того, не отдают ли модели неявно предпочтение определённым гендерам в специфических профессиональных контекстах.
BBH (Big-Bench Hard)
Поднабор из 23 особенно сложных задач из BIG-bench, выбранных потому, что они представляют большие вызовы для современных LLM, требуя возможностей многоэтапных рассуждений и глубокого понимания.
MMLU-Pro
Расширенная версия MMLU, включающая более сложные вопросы, требующие многоэтапных рассуждений, разработанная для лучшего различения производительности продвинутых моделей с помощью задач, требующих глубокого понимания и логических выводов.
GSM8K
Набор данных из 8,5 тысяч текстовых математических задач школьного уровня, требующих многоэтапных рассуждений, оценивающий способность LLM понимать задачи на естественном языке и генерировать последовательные математические решения.
Оценка мышления по цепочке
Методология оценки, измеряющая способность языковых моделей генерировать пошаговые рассуждения для решения сложных задач, оценивающая не только окончательный ответ, но и качество и согласованность процесса рассуждений.