Double Q-learning
Évaluation croisée
Principe fondamental de Double Q-learning où chaque estimateur Q évalue les actions sélectionnées par l'autre, créant une validation croisée qui prévient la surestimation systématique.
← Wstecz