MLのためのA/Bテスト

📖

用語

Interleaving

複数のランキングモデルの結果を混合してユーザーに同時に提示するオンライン評価手法で、従来のA/Bテストよりも迅速かつ感度の高いフィードバック収集を可能にします。

📖

用語

Power Analysis

A/Bテストにおいて、指定された信頼水準と統計的検出力で、特定の大きさの効果を検出するために必要な最小サンプルサイズを事前に決定する計算。

📖

用語

OAT (Online A/B Testing)

リアルな環境でモデルやアルゴリズムを評価するプロセスで、ユーザートラフィックの一部を新しいバージョンに誘導し、ビジネス指標への影響を測定します。

📖

用語

Canary Release

新しいモデルをまず非常に小さなユーザーやリクエストのサブセットに公開し、ヘルス指標が良好であれば段階的に拡大していく漸進的デプロイメント戦略。

📖

用語

Shadow Mode Deployment

新しいモデルがリアルタイムトラフィックのコピーを受け取り、ユーザーに影響を与えずに既存モデルと並行して予測を生成し、パフォーマンスのオフライン比較を行うデプロイメント方法。

📖

用語

Novelty Effect

A/Bテストにおけるバイアスで、ユーザーが本質的な品質とは関係なく、単に新しいからという理由だけで新機能に肯定的に反応する現象。これにより新しいモデルの評価が歪む可能性があります。

📖

用語

Primary Metric

A/Bテストで最終的な意思決定に使用される単一の主要なKPIで、ビジネス目標との高い相関関係（例：コンバージョン率、CTR）に基づいて選択されます。

📖

用語

Guardrail Metrics

テスト中に監視される二次的な指標で、主要指標での改善が他の重要なシステム側面（例：レイテンシ、コスト）でネガティブな回帰を引き起こさないことを確認します。

📖

用語

CUPED（実験前データを利用した管理実験）

実験前のユーザーの行動データを活用して分散を削減し、A/Bテストの統計的感度を向上させ、必要な期間を短縮する手法

📖

用語

両側t検定

2つのグループ（例：モデルAとBの性能）の平均値間に有意差があるかどうかを判断する統計的検定。差の方向を前提としない。

📖

用語

カイ二乗検定

カテゴリカルデータ（例：クリック率）に適用されるノンパラメトリック仮説検定。テストのバリアント間の観測頻度分布が偶然によるものかどうかを評価する。

📖

用語

サンプル比率不一致（SRM）

テストの各バリアントに割り当てられたユーザーの実際の比率が期待される比率（例：50/50）から有意に乖離している場合に検出される異常。設定バイアスの可能性を示す。

📖

用語

ピーキング問題

計画された終了前にA/Bテストの結果を繰り返し分析することによって導入されるバイアス。タイプIエラー率のインフレにより、誤った発見（偽陽性）のリスクが増加する。

📖

用語

ホールドアウトグループ

新バージョンの一般展開後も意図的に古いバージョンのモデルに維持されるユーザーセグメント。継続的に長期的影響を測定するため。

📖

用語

反事実的評価

実動モデルのログを使用して新しいモデルの性能を推定する方法論。新しいモデルが同じ履歴データでどのように行動したであろうかをシミュレートする。

AI用語集