🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Bandit Contextuel

Algorithme d'apprentissage par renforcement qui sélectionne dynamiquement les meilleures actions en fonction du contexte observé pour maximiser les récompenses cumulées.

📖
termes

Exploration vs Exploitation

Dilemme fondamental où l'algorithme doit équilibrer la découverte de nouvelles options et l'exploitation des options connues comme performantes.

📖
termes

Upper Confidence Bound (UCB)

Stratégie qui sélectionne les bras en fonction d'une borne supérieure de confiance sur leur récompense attendue, favorisant l'exploration des actions incertaines.

📖
termes

Thompson Sampling

Algorithme bayésien qui échantillonne les paramètres de récompense depuis leur distribution postérieure pour prendre des décisions probabilistes.

📖
termes

LinUCB

Extension de l'UCB qui modélise la récompense attendue comme une fonction linéaire du contexte, adaptée aux espaces de contextes de grande dimension.

📖
termes

Context Features

Variables descriptives qui caractérisent l'état actuel de l'environnement et influencent le choix optimal de l'action dans les bandits contextuels.

📖
termes

Regret Minimization

Objectif visant à minimiser la différence entre la récompense cumulée obtenue et celle de la politique optimale, mesurant la performance de l'algorithme.

📖
termes

Multi-armed Bandits

Problème fondamental où un agent doit sélectionner parmi plusieurs options (bras) avec des distributions de récompense inconnues pour maximiser le gain.

📖
termes

Reward Function

Fonction mathématique qui quantifie le retour immédiat obtenu après avoir pris une action dans un contexte donné, guidant l'apprentissage de l'algorithme.

📖
termes

Arm Selection

Processus de choix de l'action optimale parmi les options disponibles basé sur les estimations actuelles des récompenses et le contexte observé.

📖
termes

Expected Reward

Valeur moyenne anticipée de la récompense pour une action donnée dans un contexte spécifique, calculée à partir des observations historiques.

📖
termes

Action-Value Function

Fonction Q(a,x) qui estime la récompense future attendue en prenant l'action 'a' dans le contexte 'x', fondamentale pour l'évaluation des politiques.

📖
termes

Online Learning

Paradigme d'apprentissage où le modèle s'ajuste continuellement à mesure que de nouvelles données arrivent, sans nécessiter de réentraînement complet.

📖
termes

Stochastic Contextual Bandits

Variante où les récompenses suivent des distributions stochastiques indépendantes et identiquement distribuées pour chaque paire contexte-action.

📖
termes

Neural Bandits

Approche utilisant des réseaux de neurones pour approximer la fonction de valeur ou la politique, capable de capturer des relations non-linéaires complexes.

🔍

Aucun résultat trouvé