🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Policy Gradient Stochastique

Méthode d'optimisation directe de la politique en utilisant des estimations de gradient basées sur des trajectoires échantillonnées, permettant de gérer des espaces d'action continus et discrets.

📖
термины

Actor-Critic Stochastique

Architecture hybride combinant un acteur stochastique apprenant la politique et un critique estimant la fonction de valeur pour réduire la variance des estimations de gradient.

📖
термины

Natural Gradient

Méthode d'optimisation suivant la géométrie de l'espace des paramètres définie par la métrique de Fisher, adaptée naturellement aux problèmes stochastiques en RL.

📖
термины

Stochastic Gradient Descent

Algorithme d'optimisation itératif utilisant des estimations bruitées du gradient calculées sur des mini-batchs de données pour mettre à jour les paramètres du modèle.

📖
термины

Robbins-Monro Algorithm

Fondateur des méthodes d'approximation stochastique, utilisant un pas d'apprentissage décroissant pour garantir la convergence vers des points stationnaires dans un environnement bruité.

📖
термины

Stochastic Approximation

Cadre théorique pour l'optimisation en présence de bruit, fournissant des garanties de convergence pour les algorithmes d'apprentissage utilisant des estimations bruitées.

📖
термины

Importance Sampling en RL

Technique permettant d'utiliser des données collectées avec une ancienne politique pour entraîner une nouvelle politique, en pondérant les échantillons par le rapport des densités.

📖
термины

KL Divergence Regularization

Contrainte régularisant l'éloignement entre la politique actuelle et précédente via la divergence de Kullback-Leibler, prévenant les changements de politique trop abrupts.

📖
термины

Noise Injection in Policy

Stratégie d'exploration ajoutant du bruit stochastique directement aux paramètres ou aux sorties de la politique pour maintenir l'exploration pendant l'optimisation.

📖
термины

Stochastic Neural Networks in RL

Réseaux de neurones intégrant de l'incertitude dans leurs paramètres ou activations, utilisés comme politiques stochastiques pour modéliser des distributions complexes d'actions.

🔍

Результаты не найдены