AI用語集
人工知能の完全辞典
オン方針データ収集
エージェントが現在の方策に従ってサンプルを収集するプロセス。専門家の行動との差異を特定し、ターゲットを絞った調整を可能にする。
分布ドリフト
エージェントの方策が専門家が訪問した状態の分布から離れていく現象。これにより、模倣学習のための初期データの関連性が低下する。
反復的データ集約
新たに収集された専門家データを既存のデータセットに逐次統合し、方策学習を強化する方法論。
データ混合
初期の模倣データとDAggerを通じて収集されたデータを組み合わせ、より堅牢で代表的なトレーニングセットを作成する戦略。
専門家フィードバックループ
専門家がエージェントの訪問した状態に対して修正アクションを提供するインタラクティブなサイクル。各反復で方策の改善に直接貢献する。
方策安定性
トレーニングデータのわずかな変動に対するエージェントの行動の一貫性の尺度。DAggerアルゴリズムの主要な目標の一つ。
圧縮誤差
集約されたデータセットが学習中の方策によって訪問される状態の多様性を適切に捕捉できない場合に生じるバイアス。
収集ホライズン
エージェントが現在の方策を実行するステップ数またはエピソード数。この後に専門家の介入を再度要請してデータを収集する。
模倣強化学習 (IRL)
エージェントが専門家を模倣してタスクを学習するパラダイムで、多くの場合、実証されたデータを超えて一般化するために強化学習技術と組み合わせられる。
行動クローニングバイアス
静的模倣に内在する制限で、エージェントが初期データセットに存在しない誤りから回復できない問題。DAggerが解決を目指す課題。
行動方策
データ収集フェーズでエージェントが従う戦略。専門家を最も重要な修正が必要な状態に導くために使用される。
代理損失関数
模倣モデルの訓練に使用される目的関数。通常、エージェントの行動と専門家の行動間の分類誤差または回帰誤差。
方策の一般化
学習された方策が、データ収集時に未観測の状態でも確実に性能を発揮する能力。DAggerによって導入される多様性によって向上する。
データ収集コスト
専門家が注釈を提供するために必要な時間的または計算的リソース。DAggerのようなアルゴリズムの実用的効率性における重要な要素。
分散低減
データ集約が勾配推定の安定化に及ぼす効果。方策のより迅速かつ信頼性の高い収束をもたらす。
専門家の行動空間
専門家が実証可能な全ての行動の集合。DAggerアルゴリズムを通じてエージェントが模倣学習できる範囲を定義する。
修正された軌跡
専門家の介入がエージェントの行動を置き換える状態と行動のシーケンスであり、ポリシーの学習のための高品質な例を作成する。
オフライン学習
DAgger法の特徴である、環境との直接的な相互作用なしに、集約されたデータセット上でモデルを訓練する段階。
ポリシーの収束
連続するDAggerの反復がポリシーの性能を大幅に改善しなくなる時点であり、データセットが十分に完全であることを示す。