ベンチマークと評価

📖

用語

MMLU (Massive Multitask Language Understanding)

数学から歴史まで57の科目にわたるLLMの知識と問題解決能力を評価する包括的なベンチマーク。多肢選択形式を使用して、一般的な理解と推論能力を測定します。

📖

用語

HELM (Holistic Evaluation of Language Models)

正確性、堅牢性、公平性、バイアス、効率性、環境への影響など、複数の次元でLLMを測定する体系的な評価フレームワーク。モデルのパフォーマンスに関する包括的な視点を提供します。

📖

用語

GLUE (General Language Understanding Evaluation)

一般的な言語理解を評価するために設計された9つの異なるNLPタスクのセット。感情分類、言語推論、意味的類似性を含み、多次元的な理解能力を測定します。

📖

用語

SuperGLUE

GLUEの改良版で、高度な推論を必要とするより複雑なタスクを提供。現代のLLMを評価するために特別に設計され、元のGLUEベンチマークで達成された天井性能を避けることを目的としています。

📖

用語

BIG-bench (Beyond the Imitation Game Benchmark)

LLMの限界をテストするために研究者によって作成された200以上の評価タスクのコレクティブ。複雑な推論、数学、自然言語理解のタスクを含みます。

📖

用語

TruthfulQA

訓練データで頻繁に見られる誤情報を繰り返すのではなく、LLMが真実な回答を生成する傾向を測定するために設計されたベンチマーク。真実と虚偽を区別する能力を評価します。

📖

用語

HumanEval

LLMが機能的なコードを生成する能力を評価するためにOpenAIによって作成された164のPythonプログラミング問題のセット。自動化された単体テストを通じて、構文的およびアルゴリズム的理解を測定します。

📖

用語

MATH (Mathematical Reasoning)

LLMの数学的推論能力を評価する競技レベルの数学問題のデータセット。代数、幾何学、数論を含み、複雑な問題解決を測定します。

📖

用語

HellaSwag

ベンチマークテスト、常識理解と日常生活シナリオの推論能力を評価し、モデルに文脈的に一貫性のある選択肢から最ももっともらしい文の結びを選ばせる。

📖

用語

ARC (AI2 Reasoning Challenge)

小・中学校レベルの科学に関する質問セットで、複雑な推論を必要とし、LLMの推論能力と科学的理解力を評価するために設計された難解な多肢選択問題。

📖

用語

SQuAD (Stanford Question Answering Dataset)

抽出型質問応答システム評価のための標準データセットで、Wikipedia記事に対する人間が作成した10万件以上の質問を含み、テキスト内の正確な情報を検索する能力を測定。

📖

用語

Winogrande

大規模な指示詞曖昧性解決データセットで、ウィノグラードスキーマを使用し、正解が実世界の知識に依存する文を通じて常識理解をテスト。

📖

用語

WinoBias

LLMの性別バイアスを評価するために設計されたデータセットで、職業的ステレオタイプを含む文を使用し、モデルが特定の職業的文脈で暗黙的に特定の性別を好むかを測定。

📖

用語

BBH (Big-Bench Hard)

BIG-benchから特に困難な23タスクのサブセットで、現在のLLMにとって最大の課題を表すために選択され、多段階推論能力と深い理解を必要とする。

📖

用語

MMLU-Pro

MMLUの拡張版で、複数ステップの推論を必要とするより複雑な質問を含み、深い理解と論理的推論を要求する問題で、高度なモデルのパフォーマンスをよりよく区別するために設計。

📖

用語

GSM8K

8.5千件の学校レベルの文章数学問題のデータセットで、多段階推論を必要とし、LLMが自然言語の問題を理解し、一貫した数学的解決策を生成する能力を評価。

📖

用語

思考連鎖評価

LLMが複雑な問題を解決するために段階的な推論を生成する能力を測定する評価方法論で、最終的な答えだけでなく、推論プロセスの品質と一貫性も評価する。

AI用語集