強化学習による最適化

📖

用語

方針決定ポリシー

強化学習プロセスにおけるエージェントの行動を表す、可能な各状態で取るべき行動を定義する戦略またはマッピング。

📖

用語

多腕バンディット問題

エージェントが未知の報酬を持つ複数の選択肢から選択し、時間経過に伴う累積報酬を最大化する逐次最適化問題。

📖

用語

累積報酬

エージェントが最大化を目指す将来の期待報酬の合計。遠い将来の報酬に重みを減らすために割引率を用いて計算されることが多い。

📖

用語

SARSAアルゴリズム

状態-行動-報酬-状態-行動のシーケンスに基づいてQ値を更新する方策オン型の強化学習アルゴリズム。Q学習とは異なる。

📖

用語

Deep Q-Network

複雑な状態空間におけるQ関数を近似するために使用される深層ニューラルネットワークアーキテクチャで、深層学習とQ学習を組み合わせたもの。

📖

用語

深層強化学習

高次元の状態空間や行動空間を扱うために、深層ニューラルネットワークを強化学習に統合したアプローチ。

📖

用語

ε-greedy方策

確率εでエージェントが探索（ランダムな行動選択）を行い、確率1-εで活用（既知の最良の行動選択）を行う行動選択戦略。

📖

用語

方策最適化

価値関数を経由せずに直接方策を最適化する強化学習の手法クラス。方策勾配法などの技術を頻繁に使用する。

📖

用語

方策勾配法

期待報酬の勾配に従って直接方策のパラメータを調整する最適化手法。

📖

用語

マルチエージェント強化学習

複数のエージェントが共有環境で同時に学習する強化学習の拡張。競争や協力を行うことが多い。

📖

用語

経験再生メモリ

学習中の再サンプリングのために遷移（状態、行動、報酬、次の状態）を格納するデータ構造。データ利用効率を向上させる。

📖

用語

Actor-Criticアルゴリズム

方策に従って行動を選択するアクターと、その行動を評価するクリティックを組み合わせたアーキテクチャ。より安定した効率的な学習を可能にする。

AI用語集