DAggerデータ集約

📖

用語

DAgger (Dataset Aggregation)

模倣学習アルゴリズムで、現在の方針が訪問した状態について専門家に繰り返し問い合わせることでデータを収集します。このアプローチは、訓練分布と展開分布の間のズレを減らします。

📖

用語

データ集約

異なるソースや学習反復から複数のデータセットを収集・結合するプロセス。DAggerでは、学習された方針の堅牢性を徐々に向上させることができます。

📖

用語

反復的収集

複数の連続サイクルでデータを収集する方法論で、各サイクルは前のサイクルの情報を使用します。このアプローチにより、方針を継続的に洗練し、新しい状態を探索できます。

📖

用語

行動方針

DAggerでデータ収集中にエージェントが従う戦略または行動の確率分布。反復を通じて進化し、最適な方針に近づきます。

📖

用語

状態分布

エージェントが実行中に訪問する可能性のある状態の確率的集合。DAggerはこの分布を実際の展開で遭遇する分布と一致させようとします。

📖

用語

分布バイアス

訓練データの分布と本番展開で遭遇する分布との違い。DAggerは現在の方針が実際に訪問した状態でデータを収集することでこのバイアスを削減します。

📖

用語

エラー修正

エージェントの現在の方針がエラーを犯したときに専門家が正しい行動を提供するプロセス。これらの修正は方針を改善するための新しい訓練データとして機能します。

📖

用語

専門家照会

エージェントが訪問した特定の状態について、人間の専門家またはシステムから最適な行動を求めるメカニズム。これらの照会は高品質な訓練データを生成するために不可欠です。

📖

用語

訪問状態

エージェントが現在のポリシーを実行中に到達する環境の特定の設定または状況。これらの状態はDAggerにおいて専門家の質問対象となります。

📖

用語

現在のポリシー

DAggerアルゴリズムの各反復で進化するエージェントの意思決定戦略の現在のバージョン。環境を探索し、専門家の修正が必要な状態を特定するために使用されます。

📖

用語

適応的集約

DAggerの変種で、専門家のアクションと現在のポリシーのアクションの割合を動的に調整します。この適応により、学習中に探索と活用のバランスを取ることができます。

📖

用語

フィードバックループ

現在のポリシーのパフォーマンスが新しい状態を生成し、それらが専門家の修正を必要とする継続的なサイクル。この反復ループはDAggerにおける改善の基本的なメカニズムです。

📖

用語

オンライン修正

エージェントのポリシーのリアルタイム実行中に発生する専門家の介入プロセス。これらの即時修正は、軌道におけるエラーの伝播を防ぎます。

📖

用語

軌道分布

エージェントが現在のポリシーに従って生成する状態とアクションのシーケンスの集合。DAggerは、この分布を最適な専門家ポリシーによって生成される分布と一致させることを目指します。

📖

用語

ターゲットポリシー

エージェントが模倣しようとする最適なポリシーで、通常は専門家のデモンストレーションによって表されます。DAggerの目標は、学習したポリシーをこのターゲットポリシーに収束させることです。

📖

用語

漸進的集約

各新しい反復が既存のデータに補足情報を追加するデータ蓄積戦略。このアプローチは、関連する状態空間のカバレッジを確実に拡大します。

📖

用語

コンパクト性エラー

表現の制限による学習ポリシーと専門家ポリシーとの性能差。DAggerは実際の状態分布からデータを収集することでこのエラーを最小化する。

AI用語集