A/Bテストと実験

📖

用語

A/Bテスト

事前に定義されたメトリクスに基づいて、モデルやサービスの2つのバージョン（AとB）を比較し、どちらがより優れたパフォーマンスを示すかを判断する実験的手法。通常、トラフィックをランダムに割り振って行われる。

📖

用語

多変量テスト

複数の変数とその組み合わせを同時にテストし、全体的な最適化を特定する高度な手法。モデルの異なる要因間の相互作用を評価できる。

📖

用語

ブルーグリーンデプロイメント

同一の環境を2つ用意し、完全な検証後にトラフィックを古いバージョン（Blue）から新しいバージョン（Green）へ完全に切り替えるデプロイメントパターン。ダウンタイムを最小限に抑える。

📖

用語

フィーチャーフラグ

特定の機能やモデルを動的に有効/無効にできる制御メカニズム。再デプロイなしで実験や迅速なロールバックを容易にする。

📖

用語

トラフィック分割

A/Bテストや段階的デプロイメントのために、設定可能なルールに従ってリクエストを異なるモデルバージョンに比例的に分散させるインテリジェントなルーティング手法。

📖

用語

統計的有意性

テストされた変異体間の観察された差異が偶然ではなく実際の効果によるものであるかどうかを判断する確率的測定。通常、p値<0.05のしきい値が使用される。

📖

用語

P値

帰無仮説が真である場合に、測定されたものと同等以上に極端な結果を観測する確率。仮説検定における判断基準として使用される。

📖

用語

信頼区間

測定されたパラメータの真の値を定義された確率（通常95%）で含む推定値の範囲。実験的推定の不確実性を定量化する。

📖

用語

対照群

統計的な比較のためにベースラインとして機能する参照バージョン（通常は現在のモデル）を受け取る母集団サンプル。

📖

用語

処理群

テストされたモデルの実験的変異に曝露される母集団セグメントで、対照群との相対的な影響を測定することを可能にする。

📖

用語

ベースラインモデル

新しいバージョンによる改善を評価するための比較点として使用される参照モデルで、多くの場合現在実稼働中のモデル。

📖

用語

チャンピオン・チャレンジャー

現在のチャンピオンモデルが挑戦者モデルに常に挑まれる継続的な競争戦略で、最高のパフォーマーを示すものがチャンピオンを徐々に置き換える。

📖

用語

段階的ロールアウト

トラフィックの割合を徐々に増加させながら新しいモデルを段階的に展開する方法で、継続的な検証とネガティブな影響のリスク最小化を可能にする。

📖

用語

実験プラットフォーム

変異の作成から結果の統計分析、意思決定の自動化まで、実験の完全なライフサイクルを管理する中央集権型インフラストラクチャ。

📖

用語

メトリックドリフト

実稼働中のモデルのパフォーマンスメトリックが徐々に劣化する現象で、継続的な監視によって検出され、定期的な再評価が必要。

📖

用語

サンプルサイズ計算

特定の統計的検出力で有意な差を検出するために必要な最小観測数を決定する統計的プロセスで、テスト計画に不可欠。

📖

用語

ベイズ統計を用いたA/Bテスト

ベイズ確率を使用して変異体を評価する代替的なアプローチで、より少ないサンプルで継続的な意思決定を可能にし、結果の直感的な解釈を可能にする。

📖

用語

逐次テスト

タイプIエラーのリスクを増大させずに事前定義された間隔で結果を評価することができる分析手法で、実験の期間とコストを最適化します。

AI用語集