AI用語集
人工知能の完全辞典
強化学習能動学習
アクティブラーニングと強化学習の原理を組み合わせ、アノテーション対象のサンプル選択を最適化するハイブリッド手法論。
サンプル選択方策
予算制約下でモデルの改善を最大化するために、どのデータをアノテーション依頼するかを定義する決定論的または確率的な戦略。
強化学習エージェント
アノテーション環境との相互作用を通じて、最適なサンプル選択決定を行うことを学習するアルゴリズム的実体。
報酬関数
各サンプル選択アクションの有用性を定量化するシグナル。通常、モデルの性能向上に基づいている。
状態行動価値
状態sからアクションaを選択し、その後最適な方策に従った場合に得られる期待される累積報酬を推定する関数Q(s,a)。
深層強化学習
価値関数や方策を近似するために深層ニューラルネットワークを使用する、強化学習の拡張版。
不確実性に基づくアクティブラーニング
エージェントが、モデルの予測不確実性が最も高いサンプルを優先的に選択する戦略。
戦略的サンプル選択
アノテーションコストあたりの情報利得を最大化するデータのサブセットを特定することを目的とした、最適化された意思決定プロセス。
オフポリシー強化学習
別の行動方策に従いながら最適な方策を学習する手法で、柔軟な探索に役立ちます。
オンライン強化学習
エージェントがアノテーション中に学習とサンプル選択を同時に行い、戦略を動的に適応させるパラダイムです。
学習とアノテーションのバランス
インテリジェントな選択に費やす時間と、モデルの性能の潜在的な向上との間のトレードオフを最適化することです。
データ取得戦略
事前に定義された基準に基づいて、アノテーションする最も関連性の高いデータを特定・収集するための体系的な行動計画です。
マルチエージェント強化学習
複数のエージェントが協力または競合し、サンプル選択戦略を共同で最適化する拡張機能です。
アクティブQ学習アルゴリズム
アクティブラーニングに適応させたQ学習の変種で、アクションはアノテーションするサンプルの選択に対応します。
ガイド付き探索方策
モデルにとって潜在的に最も情報量の多いデータ空間の領域に向けられた探索戦略です。
ベイズ強化学習
サンプル選択においてより堅牢な意思決定を行うために、価値関数の推定に不確実性を統合する手法です。