🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📂
个子类别

Q-learning

Algorithme d'apprentissage par renforcement sans modèle qui apprend la fonction de valeur action-état pour trouver la politique optimale.

16 个术语
📂
个子类别

SARSA

Algorithme d'apprentissage par renforcement on-policy qui met à jour les valeurs Q en utilisant l'action réellement suivie.

13 个术语
📂
个子类别

Programmation Dynamique

Méthodes mathématiques incluant l'itération de la valeur et l'itération de la politique pour résoudre les MDP.

16 个术语
📂
个子类别

Méthodes Monte Carlo

Techniques d'apprentissage basées sur l'échantillonnage d'épisodes complets pour estimer les valeurs.

16 个术语
📂
个子类别

Apprentissage Temporel Différentiel

Combinaison de programmation dynamique et Monte Carlo permettant des mises à jour en ligne après chaque étape.

14 个术语
📂
个子类别

Double Q-learning

Variante du Q-learning utilisant deux estimateurs Q pour réduire le biais de surestimation des valeurs d'action.

16 个术语
📂
个子类别

Approximation de Fonction

Extension des méthodes tabulaires aux espaces d'états continus utilisant des approximateurs comme réseaux de neurones.

12 个术语
📂
个子类别

Apprentissage avec Modèle

Approches où le modèle de transition de l'environnement est connu ou appris pour planifier les actions.

14 个术语
📂
个子类别

Exploration vs Exploitation

Stratégies pour équilibrer l'exploration de nouvelles actions et l'exploitation des connaissances acquises.

9 个术语
📂
个子类别

Processus Décisionnels Markoviens

Framework mathématique formel modélisant les problèmes de décision séquentielle en environnement stochastique.

19 个术语
📂
个子类别

Apprentissage Multi-agents

Extension de l'apprentissage par renforcement à des environnements avec plusieurs agents interagissant.

16 个术语
📂
个子类别

Processus Observables Partiellement

Généralisation des MDP où l'état n'est que partiellement observable, nécessitant des croyances sur l'état.

14 个术语
📂
个子类别

Méthodes de Gradient de Politique

Optimisation directe des paramètres de politique en suivant le gradient des performances attendues.

8 个术语
📂
个子类别

Éligibility Traces

Mécanisme combinant avantages de TD et Monte Carlo pour accélérer l'apprentissage via crédit temporel.

17 个术语
📂
个子类别

Factorisation de la Valeur

Décomposition de la fonction Q en valeur d'état et avantage pour améliorer la stabilité de l'apprentissage.

15 个术语
🔍

未找到结果