এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Off-Policy Learning
Méthode d'apprentissage où l'agent apprend une politique optimale tout en suivant une autre politique de comportement, permettant une meilleure exploration.
Target Networks
Réseaux neuronaux dupliqués avec poids mis à jour lentement pour stabiliser l'apprentissage en fournissant des cibles plus consistantes.
Ornstein-Uhlenbeck Process
Processus stochastique utilisé pour générer du bruit temporellement corrélé dans les actions, favorisant une exploration efficace en espaces continus.
Continuous Action Space
Environnement où les actions peuvent prendre n'importe quelle valeur dans un intervalle continu, nécessitant des algorithmes adaptés contrairement aux actions discrètes.
Neural Network Function Approximation
Utilisation de réseaux neuronaux pour approximer des fonctions complexes comme les politiques ou les fonctions de valeur en apprentissage par renforcement.
Soft Update
Méthode de mise à jour progressive des réseaux cibles utilisant un coefficient tau (τ) pour mélanger lentement les poids des réseaux principaux et cibles.
Actor Network
Réseau neuronal apprenant à mapper directement les états aux actions optimales dans un espace d'action continu.
Deterministic Policy
Politique qui associe une action spécifique à chaque état, contrairement aux politiques stochastiques qui retournent des distributions de probabilités.
Action Noise
Bruit ajouté aux actions produites par l'acteur pour encourager l'exploration de l'espace d'action continu durant l'entraînement.