推薦システムの評価

📖

用語

Precision@K

K番目までの推薦項目の中から関連する項目の割合を測定する指標で、上位の結果の品質を評価するために不可欠です。

📖

用語

Recall@K

利用可能な関連項目の総数に対して、K番目までの推薦に実際に含まれる関連項目の割合を計算する指標です。

📖

用語

Mean Average Precision (MAP)

関連項目ごとのランクで重み付けられた、各関連位置での適合率の平均を計算する集計メトリックです。

📖

用語

NDCG (Normalized Discounted Cumulative Gain)

リストの先頭から遠くにある関連項目をペナルティすることでランキングの品質を評価する正規化スコアで、段階的な関連性を持つ推薦に最適です。

📖

用語

RMSE (Root Mean Square Error)

予測された値と実際の値の間の差を測定することで、評価予測の精度を評価するために使用される二乗平均平方根誤差です。

📖

用語

Hit Rate (HR)

最初のN件の推薦に少なくとも1つの関連項目が表示されるセッションの割合で、システムの全体的な有効性を測定します。

📖

用語

Catalog Coverage

システムが推薦できるカタログ内の一意の項目の割合で、項目の限られたサブセットへの集中を避けるために重要です。

📖

用語

Intra-List Diversity

同じ推薦リスト内の項目間の平均的な非類似性の測定で、冗長性を避け、ユーザー体験を豊かにするために不可欠です。

📖

用語

新規性

カタログ全体での人気度の逆数として計算される、ユーザーへの推薦アイテムの未知性の度合い。

📖

用語

セレンディピティ

単純な予測を超えて、ユーザーを肯定的に驚かせる関連性のあるが予期せぬアイテムを推薦するシステムの能力。

📖

用語

A/Bテスト

ビジネスインパクトを測定するために、実際のユーザーセグメントでシステムの2つのバージョンのパフォーマンスを比較する実験的手法。

📖

用語

Leave-One-Out交差検証

各ユーザーインタラクションを交互にテストデータとして使用し、他のデータを訓練に使用する堅牢な評価技術。

📖

用語

オフライン評価とオンライン評価

システムの完全な有効性を検証するために、履歴データ（オフライン）と実際のインタラクション（オンライン）でパフォーマンスを評価する二重アプローチ。

📖

用語

時間的汎化

ランダムではなく時間的分割で順次評価される、未来のデータでもパフォーマンスを維持するシステムの能力。

📖

用語

ビジネス指標相関

ビジネスの関連性を検証するために、アルゴリズム指標（NDCG、Precision）とビジネス指標（コンバージョン、リテンション）の関係を分析。

📖

用語

カタラクト指標

推薦の全体的な品質を包括的に評価するために、精度、多様性、新規性、カバレッジをバランスさせた複合スコア。

📖

用語

Expected Reciprocal Rank (ERR)

最初のクリック後に検索を停止すると仮定するユーザーの行動に基づいた確率モデルで、上位の位置を強く重み付けします。

📖

用語

User Coverage

システムが推薦を生成できるユーザーの割合で、システムの普遍的な適用性を測定するために重要です。

📖

用語

Fairness Metrics

アルゴリズムのバイアスを避けるために、異なる人口統計グループ間の推薦配分の公平性を評価する指標です。

📖

用語

Exposure Bias Measurement

人気のあるアイテムとロングテールのアイテム間の露出の格差を定量化し、推薦のバランスを評価するために不可欠です。

AI用語集