🏠 홈
벤치마크
📊 모든 벤치마크 🦖 공룡 v1 🦖 공룡 v2 ✅ 할 일 목록 앱 🎨 창의적인 자유 페이지 🎯 FSACB - 궁극의 쇼케이스 🌍 번역 벤치마크
모델
🏆 톱 10 모델 🆓 무료 모델 📋 모든 모델 ⚙️ 킬로 코드 모드
리소스
💬 프롬프트 라이브러리 📖 AI 용어 사전 🔗 유용한 링크

AI 용어집

인공지능 완전 사전

162
카테고리
2,032
하위 카테고리
23,060
용어
📂
하위 카테고리

Q-learning

Algorithme d'apprentissage par renforcement sans modèle qui apprend la fonction de valeur action-état pour trouver la politique optimale.

16 용어
📂
하위 카테고리

SARSA

Algorithme d'apprentissage par renforcement on-policy qui met à jour les valeurs Q en utilisant l'action réellement suivie.

13 용어
📂
하위 카테고리

Programmation Dynamique

Méthodes mathématiques incluant l'itération de la valeur et l'itération de la politique pour résoudre les MDP.

16 용어
📂
하위 카테고리

Méthodes Monte Carlo

Techniques d'apprentissage basées sur l'échantillonnage d'épisodes complets pour estimer les valeurs.

16 용어
📂
하위 카테고리

Apprentissage Temporel Différentiel

Combinaison de programmation dynamique et Monte Carlo permettant des mises à jour en ligne après chaque étape.

14 용어
📂
하위 카테고리

Double Q-learning

Variante du Q-learning utilisant deux estimateurs Q pour réduire le biais de surestimation des valeurs d'action.

16 용어
📂
하위 카테고리

Approximation de Fonction

Extension des méthodes tabulaires aux espaces d'états continus utilisant des approximateurs comme réseaux de neurones.

12 용어
📂
하위 카테고리

Apprentissage avec Modèle

Approches où le modèle de transition de l'environnement est connu ou appris pour planifier les actions.

14 용어
📂
하위 카테고리

Exploration vs Exploitation

Stratégies pour équilibrer l'exploration de nouvelles actions et l'exploitation des connaissances acquises.

9 용어
📂
하위 카테고리

Processus Décisionnels Markoviens

Framework mathématique formel modélisant les problèmes de décision séquentielle en environnement stochastique.

19 용어
📂
하위 카테고리

Apprentissage Multi-agents

Extension de l'apprentissage par renforcement à des environnements avec plusieurs agents interagissant.

16 용어
📂
하위 카테고리

Processus Observables Partiellement

Généralisation des MDP où l'état n'est que partiellement observable, nécessitant des croyances sur l'état.

14 용어
📂
하위 카테고리

Méthodes de Gradient de Politique

Optimisation directe des paramètres de politique en suivant le gradient des performances attendues.

8 용어
📂
하위 카테고리

Éligibility Traces

Mécanisme combinant avantages de TD et Monte Carlo pour accélérer l'apprentissage via crédit temporel.

17 용어
📂
하위 카테고리

Factorisation de la Valeur

Décomposition de la fonction Q en valeur d'état et avantage pour améliorer la stabilité de l'apprentissage.

15 용어
🔍

결과를 찾을 수 없습니다