教師あり学習アルゴリズム
R-STDP
報酬変調型スパイクタイミング依存可塑性(Reward-modulated Spike-Timing Dependent Plasticity)は、グローバルな報酬信号がスパイク時刻に基づく局所的な可塑性を変調する3因子学習則です。この手法は、生物学的に妥当なシナプス可塑性メカニズムを用いて、スパイキングネットワークにおける強化学習を可能にします。
← 戻る