🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

Policy Gradient Stochastique

Méthode d'optimisation directe de la politique en utilisant des estimations de gradient basées sur des trajectoires échantillonnées, permettant de gérer des espaces d'action continus et discrets.

📖
शब्द

Actor-Critic Stochastique

Architecture hybride combinant un acteur stochastique apprenant la politique et un critique estimant la fonction de valeur pour réduire la variance des estimations de gradient.

📖
शब्द

Natural Gradient

Méthode d'optimisation suivant la géométrie de l'espace des paramètres définie par la métrique de Fisher, adaptée naturellement aux problèmes stochastiques en RL.

📖
शब्द

Stochastic Gradient Descent

Algorithme d'optimisation itératif utilisant des estimations bruitées du gradient calculées sur des mini-batchs de données pour mettre à jour les paramètres du modèle.

📖
शब्द

Robbins-Monro Algorithm

Fondateur des méthodes d'approximation stochastique, utilisant un pas d'apprentissage décroissant pour garantir la convergence vers des points stationnaires dans un environnement bruité.

📖
शब्द

Stochastic Approximation

Cadre théorique pour l'optimisation en présence de bruit, fournissant des garanties de convergence pour les algorithmes d'apprentissage utilisant des estimations bruitées.

📖
शब्द

Importance Sampling en RL

Technique permettant d'utiliser des données collectées avec une ancienne politique pour entraîner une nouvelle politique, en pondérant les échantillons par le rapport des densités.

📖
शब्द

KL Divergence Regularization

Contrainte régularisant l'éloignement entre la politique actuelle et précédente via la divergence de Kullback-Leibler, prévenant les changements de politique trop abrupts.

📖
शब्द

Noise Injection in Policy

Stratégie d'exploration ajoutant du bruit stochastique directement aux paramètres ou aux sorties de la politique pour maintenir l'exploration pendant l'optimisation.

📖
शब्द

Stochastic Neural Networks in RL

Réseaux de neurones intégrant de l'incertitude dans leurs paramètres ou activations, utilisés comme politiques stochastiques pour modéliser des distributions complexes d'actions.

🔍

कोई परिणाम नहीं मिला