Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Bandit Algorithm
Famille d'algorithmes d'apprentissage en ligne où l'agent doit sélectionner séquentiellement des actions avec récompenses incertaines pour maximiser le gain cumulé.
Follow the Leader (FTL)
Stratégie d'optimisation en ligne où l'algorithme choisit à chaque étape l'action qui aurait été optimale sur les données passées observées jusqu'à ce point.
Follow the Regularized Leader (FTRL)
Variante de FTL incorporant une régularisation pour stabiliser les décisions séquentielles et garantir de meilleures bornes de regret dans des environnements adversaires.
Online Gradient Descent
Algorithme d'optimisation qui met à jour les paramètres du modèle dans la direction opposée au gradient de la fonction de perte calculé sur chaque nouvelle observation.
Multiplicative Weights Update
Méthode d'optimisation en ligne qui ajuste exponentiellement les poids attribués aux experts en fonction de leurs performances passées pour combiner leurs prédictions.
Expert Advice
Cadre d'apprentissage en ligne où l'algorithme doit agréger les recommandations de plusieurs experts pour minimiser le regret par rapport au meilleur expert.
Online Convex Optimization
Théorie mathématique étudiant l'optimisation séquentielle de fonctions convexes où les fonctions de perte sont révélées progressivement au cours du temps.
Adversarial Online Learning
Scénario d'apprentissage en ligne où les données sont générées par un adversaire potentiellement malveillant cherchant à maximiser le regret de l'algorithme.
Exploration-Exploitation Trade-off
Dilemme fondamental en apprentissage en ligne entre explorer de nouvelles actions pour découvrir leurs récompenses et exploiter les actions connues comme étant performantes.
Online Mirror Descent
Généralisation de la descente de gradient utilisant une fonction de Bregman pour projeter les mises à jour dans un espace contraint, offrant une flexibilité supérieure dans l'optimisation.
Learning with Partial Information
Paradigme où l'algorithme ne reçoit des informations que sur l'action choisie (bandit) plutôt que sur toutes les actions possibles (full information).
Adaptive Learning Rate
Mécanisme ajustant dynamiquement le pas d'apprentissage en fonction des propriétés locales du paysage de la perte pour optimiser la convergence en environnement non-stationnaire.
Hedge Algorithm
Algorithme d'agrégation d'experts utilisant la mise à jour multiplicative des poids pour garantir une borne de regret logarithmique par rapport au meilleur expert.
Regret Bound
Limite supérieure théorique sur le regret cumulé qu'un algorithme peut subir, permettant de comparer et garantir les performances des méthodes d'optimisation en ligne.
Stochastic Online Learning
Cadre d'apprentissage où les données suivent une distribution de probabilité fixe et inconnue, permettant des garanties de performance en espérance plutôt qu'au pire cas.