🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Politique de Décision

Stratégie ou mapping qui définit l'action à entreprendre dans chaque état possible, représentant le comportement de l'agent dans un processus d'apprentissage par renforcement.

📖
términos

Problème de Bandit Manchot

Problème d'optimisation séquentielle où un agent doit choisir parmi plusieurs options avec des récompenses inconnues pour maximiser la récompense cumulée sur le temps.

📖
términos

Récompense Cumulée

Somme des récompenses futures escomptées que l'agent cherche à maximiser, souvent calculée avec un facteur d'escompte pour donner moins de poids aux récompenses lointaines.

📖
términos

Algorithme SARSA

Algorithme d'apprentissage par renforcement en-politique qui met à jour les valeurs Q basées sur la séquence State-Action-Reward-State-Action, contrairement au Q-learning.

📖
términos

Deep Q-Network

Architecture de réseau neuronal profond utilisée pour approximer la fonction Q dans des espaces d'états complexes, combinant apprentissage profond et Q-learning.

📖
términos

Apprentissage par Renforcement Profond

Approche intégrant les réseaux de neurones profonds dans l'apprentissage par renforcement pour traiter des espaces d'états ou d'actions de haute dimension.

📖
términos

Politique Epsilon-Greedy

Stratégie de sélection d'action où avec probabilité ε l'agent explore (choisit une action aléatoire) et avec probabilité 1-ε il exploite (choisit la meilleure action connue).

📖
términos

Optimisation de Politique

Classe de méthodes en apprentissage par renforcement qui optimisent directement la politique sans passer par une fonction de valeur, utilisant souvent des techniques de gradient de politique.

📖
términos

Algorithme de Gradient de Politique

Méthode d'optimisation qui ajuste directement les paramètres de la politique en suivant le gradient de la récompense attendue par rapport à ces paramètres.

📖
términos

Apprentissage par Renforcement Multi-Agents

Extension de l'apprentissage par renforcement où plusieurs agents apprennent simultanément, souvent en compétition ou coopération, dans un environnement partagé.

📖
términos

Mémoire de Reprise d'Expérience

Structure de données stockant les transitions (état, action, récompense, prochain état) pour rééchantillonnage pendant l'entraînement, améliorant l'efficacité d'utilisation des données.

📖
términos

Algorithme Actor-Critic

Architecture combinant un acteur qui sélectionne les actions selon une politique et un critique qui évalue ces actions, permettant un apprentissage plus stable et efficace.

🔍

No se encontraron resultados