AI用語集
人工知能の完全辞典
ネグレント交差検証
ハイパーパラメータ最適化時の過学習を避けるための、二重のネストされた交差検証を用いたモデル評価手法。内側のループで最適なハイパーパラメータを選択し、外側のループで選択されたモデルの性能を公平に評価する
内側ループ
ネグレント交差検証における第一レベルの交差検証で、モデルのハイパーパラメータの選択と最適化を担当する。このループは最終評価前に最適な設定を特定するために別個の検証セットを使用する
外側ループ
ネグレント交差検証における第二レベルの交差検証で、ハイパーパラメータ選択後のモデル性能の不偏推定を提供する。このループのテストデータはハイパーパラメータ最適化中に使用されることはない
ハイパーパラメータ過学習
ハイパーパラメータが検証セットに対して特に性能が良くなるように最適化され、新しいデータへの汎化性が損なわれる現象。これは同じ交差検証がハイパーパラメータ選択と最終評価の両方に使用される場合に発生する問題
選択バイアス
テストセットが最適化プロセスに暗黙的に使用される場合に、モデルまたはハイパーパラメータの選択時に導入される系統的誤差。このバイアスは、本番環境でのモデル性能について楽観的で非現実的な推定につながる
ネストグリッドサーチ
ネグレント交差検証と事前定義されたグリッド上の網羅的ハイパーパラメータ探索を組み合わせた手法。グリッドの各設定は内側ループで評価され、最良の設定が外側ループでテストされる
推定汎化誤差
ネグレント交差検証の外側ループによって得られる性能指標で、未観測データに対するモデルの誤差の近似値を表す。この推定値は単純な交差検証で得られるものよりも信頼性が高いとされる
逐次最適化
ハイパーパラメータ選択とモデル評価が逐次的に行われるが、汚染を避けるために異なるデータセットで実施されるプロセス。このアプローチはネグレント交差検証において基本的に実装されている
三層交差検証
異なるモデルファミリー間の選択のために第三のレベルを追加したネストされた交差検証の拡張。各レベルは互いに素なデータを使用し、パイプライン全体の完全に公平な評価を保証する。
時間情報リーク
時系列データに特有の問題で、ネストされた交差検証が学習、検証、テストセット間の時間的順序を維持するために不可欠。このアプローチは最適化における将来情報の使用を防止する。
選択安定性
異なる外部検証フォールドにわたって一貫して性能を発揮する堅牢なハイパーパラメータをネストされた交差検証が特定する能力。安定性が低いことは特定の学習データへの強い依存を示す。
二次計算コスト
ネストされた交差検証のアルゴリズム的複雑さで、O(k²)の学習を必要とする(kはフォールド数)。この高いコストはモデル性能の不偏評価を得るために必要なトレードオフである。
ネストされたモンテカルロ交差検証
内部ループと外部ループに置換を伴うランダムサンプリングを使用するネストされた交差検証の変種。このアプローチは評価の公平性を維持しながら推定値間の相関を低減する。
評価パイプライン
ネストされた交差検証が前処理、特徴選択、ハイパーパラメータ最適化、最終評価を統合した完全なパイプラインとして実装されるソフトウェアアーキテクチャ。この構造は再現性とデータリークの不在を保証する。
ネストされた信頼区間
外部ループの結果を使用してモデル性能の信頼区間を計算する統計的手法。これらの区間はデータの変動性とハイパーパラメータ選択プロセスの両方による不確実性を反映する。