Бенчмарки и оценка - Глоссарий ИИ

📖

термины

MMLU (Massive Multitask Language Understanding)

Benchmark complet évaluant les connaissances et la résolution de problèmes des LLM sur 57 sujets allant des mathématiques à l'histoire, en utilisant un format de questions à choix multiples pour mesurer la compréhension générale et les capacités de raisonnement.

📖

термины

HELM (Holistic Evaluation of Language Models)

Framework d'évaluation systématique qui mesure les LLM selon plusieurs dimensions incluant l'accuracy, la robustesse, l'équité, le biais, l'efficacité et l'impact environnemental, fournissant une vision complète des performances du modèle.

📖

термины

GLUE (General Language Understanding Evaluation)

Ensemble de 9 tâches de NLP différentes conçues pour évaluer la compréhension linguistique générale, incluant la classification de sentiments, l'inférence linguistique et la similarité sémantique pour mesurer les capacités de compréhension multidimensionnelles.

📖

термины

SuperGLUE

Version améliorée de GLUE proposant des tâches plus complexes nécessitant un raisonnement avancé, conçue spécifiquement pour évaluer les LLM modernes et éviter les performances plafond atteintes avec le benchmark GLUE original.

📖

термины

BIG-bench (Beyond the Imitation Game Benchmark)

Collection collaborative de plus de 200 tâches d'évaluation créées par des chercheurs pour tester les limites des LLM, incluant des tâches de raisonnement, de mathématiques et de compréhension du langage naturel complexes.

📖

термины

TruthfulQA

Benchmark conçu pour mesurer la tendance des LLM à générer des réponses vraies plutôt que de répéter des faux renseignements fréquemment trouvés dans les données d'entraînement, évaluant la capacité à distinguer vérité de fausseté.

📖

термины

HumanEval

Ensemble de 164 problèmes de programmation Python créés par OpenAI pour évaluer la capacité des LLM à générer du code fonctionnel, mesurant la compréhension syntaxique et algorithmique à travers des tests unitaires automatisés.

📖

термины

MATH (Mathematical Reasoning)

Dataset de problèmes mathématiques de niveau compétition évaluant les capacités de raisonnement mathématique des LLM, incluant algèbre, géométrie et théorie des nombres pour mesurer la résolution de problèmes complexes.

📖

термины

HellaSwag

Бенчмарк, тестирующий понимание здравого смысла и рассуждения о повседневных жизненных сценариях, требующий от моделей выбора наиболее правдоподобного завершения предложения среди контекстуально согласованных вариантов.

📖

термины

ARC (AI2 Reasoning Challenge)

Набор вопросов по естественным наукам для начальной и средней школы, требующий сложных рассуждений, разработанный для оценки способностей к выводу и научному пониманию у LLM с помощью сложных вопросов с несколькими вариантами ответа.

📖

термины

SQuAD (Stanford Question Answering Dataset)

Эталонный набор данных для оценки систем извлечения вопросов и ответов, содержащий более 100 000 вопросов, заданных людьми к статьям Википедии, измеряющий способность находить точную информацию в тексте.

📖

термины

Winogrande

Масштабный набор данных для разрешения анафорической неоднозначности с использованием схем Винограда, тестирующий понимание здравого смысла через предложения, в которых правильное разрешение зависит от знаний о реальном мире.

📖

термины

WinoBias

Набор данных, разработанный для оценки гендерных предубеждений в LLM, использующий предложения с профессиональными стереотипами для измерения того, не отдают ли модели неявно предпочтение определённым гендерам в специфических профессиональных контекстах.

📖

термины

BBH (Big-Bench Hard)

Поднабор из 23 особенно сложных задач из BIG-bench, выбранных потому, что они представляют большие вызовы для современных LLM, требуя возможностей многоэтапных рассуждений и глубокого понимания.

📖

термины

MMLU-Pro

Расширенная версия MMLU, включающая более сложные вопросы, требующие многоэтапных рассуждений, разработанная для лучшего различения производительности продвинутых моделей с помощью задач, требующих глубокого понимания и логических выводов.

📖

термины

GSM8K

Набор данных из 8,5 тысяч текстовых математических задач школьного уровня, требующих многоэтапных рассуждений, оценивающий способность LLM понимать задачи на естественном языке и генерировать последовательные математические решения.

📖

термины

Оценка мышления по цепочке

Методология оценки, измеряющая способность языковых моделей генерировать пошаговые рассуждения для решения сложных задач, оценивающая не только окончательный ответ, но и качество и согласованность процесса рассуждений.

Глоссарий ИИ

MMLU (Massive Multitask Language Understanding)

HELM (Holistic Evaluation of Language Models)

GLUE (General Language Understanding Evaluation)

SuperGLUE

BIG-bench (Beyond the Imitation Game Benchmark)

TruthfulQA

HumanEval

MATH (Mathematical Reasoning)

HellaSwag

ARC (AI2 Reasoning Challenge)

SQuAD (Stanford Question Answering Dataset)

Winogrande

WinoBias

BBH (Big-Bench Hard)

MMLU-Pro

GSM8K

Оценка мышления по цепочке

Результаты не найдены