🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Bandit Algorithm

Famille d'algorithmes d'apprentissage en ligne où l'agent doit sélectionner séquentiellement des actions avec récompenses incertaines pour maximiser le gain cumulé.

📖
termes

Follow the Leader (FTL)

Stratégie d'optimisation en ligne où l'algorithme choisit à chaque étape l'action qui aurait été optimale sur les données passées observées jusqu'à ce point.

📖
termes

Follow the Regularized Leader (FTRL)

Variante de FTL incorporant une régularisation pour stabiliser les décisions séquentielles et garantir de meilleures bornes de regret dans des environnements adversaires.

📖
termes

Online Gradient Descent

Algorithme d'optimisation qui met à jour les paramètres du modèle dans la direction opposée au gradient de la fonction de perte calculé sur chaque nouvelle observation.

📖
termes

Multiplicative Weights Update

Méthode d'optimisation en ligne qui ajuste exponentiellement les poids attribués aux experts en fonction de leurs performances passées pour combiner leurs prédictions.

📖
termes

Expert Advice

Cadre d'apprentissage en ligne où l'algorithme doit agréger les recommandations de plusieurs experts pour minimiser le regret par rapport au meilleur expert.

📖
termes

Online Convex Optimization

Théorie mathématique étudiant l'optimisation séquentielle de fonctions convexes où les fonctions de perte sont révélées progressivement au cours du temps.

📖
termes

Adversarial Online Learning

Scénario d'apprentissage en ligne où les données sont générées par un adversaire potentiellement malveillant cherchant à maximiser le regret de l'algorithme.

📖
termes

Exploration-Exploitation Trade-off

Dilemme fondamental en apprentissage en ligne entre explorer de nouvelles actions pour découvrir leurs récompenses et exploiter les actions connues comme étant performantes.

📖
termes

Online Mirror Descent

Généralisation de la descente de gradient utilisant une fonction de Bregman pour projeter les mises à jour dans un espace contraint, offrant une flexibilité supérieure dans l'optimisation.

📖
termes

Learning with Partial Information

Paradigme où l'algorithme ne reçoit des informations que sur l'action choisie (bandit) plutôt que sur toutes les actions possibles (full information).

📖
termes

Adaptive Learning Rate

Mécanisme ajustant dynamiquement le pas d'apprentissage en fonction des propriétés locales du paysage de la perte pour optimiser la convergence en environnement non-stationnaire.

📖
termes

Hedge Algorithm

Algorithme d'agrégation d'experts utilisant la mise à jour multiplicative des poids pour garantir une borne de regret logarithmique par rapport au meilleur expert.

📖
termes

Regret Bound

Limite supérieure théorique sur le regret cumulé qu'un algorithme peut subir, permettant de comparer et garantir les performances des méthodes d'optimisation en ligne.

📖
termes

Stochastic Online Learning

Cadre d'apprentissage où les données suivent une distribution de probabilité fixe et inconnue, permettant des garanties de performance en espérance plutôt qu'au pire cas.

🔍

Aucun résultat trouvé