Apprentissage par Curiosité Model-Based
Façonnage de la Récompense Intrinsèque
Le processus de conception et de pondération du signal de récompense intrinsèque, souvent en le combinant avec la récompense extrinsèque de la tâche. Un bon façonnage est crucial pour équilibrer exploration et exploitation.
← 返回