Optimisation en Ligne - Glossaire IA

📖

termes

Bandit Algorithm

Famille d'algorithmes d'apprentissage en ligne où l'agent doit sélectionner séquentiellement des actions avec récompenses incertaines pour maximiser le gain cumulé.

📖

termes

Follow the Leader (FTL)

Stratégie d'optimisation en ligne où l'algorithme choisit à chaque étape l'action qui aurait été optimale sur les données passées observées jusqu'à ce point.

📖

termes

Follow the Regularized Leader (FTRL)

Variante de FTL incorporant une régularisation pour stabiliser les décisions séquentielles et garantir de meilleures bornes de regret dans des environnements adversaires.

📖

termes

Online Gradient Descent

Algorithme d'optimisation qui met à jour les paramètres du modèle dans la direction opposée au gradient de la fonction de perte calculé sur chaque nouvelle observation.

📖

termes

Multiplicative Weights Update

Méthode d'optimisation en ligne qui ajuste exponentiellement les poids attribués aux experts en fonction de leurs performances passées pour combiner leurs prédictions.

📖

termes

Expert Advice

Cadre d'apprentissage en ligne où l'algorithme doit agréger les recommandations de plusieurs experts pour minimiser le regret par rapport au meilleur expert.

📖

termes

Online Convex Optimization

Théorie mathématique étudiant l'optimisation séquentielle de fonctions convexes où les fonctions de perte sont révélées progressivement au cours du temps.

📖

termes

Adversarial Online Learning

Scénario d'apprentissage en ligne où les données sont générées par un adversaire potentiellement malveillant cherchant à maximiser le regret de l'algorithme.

📖

termes

Exploration-Exploitation Trade-off

Dilemme fondamental en apprentissage en ligne entre explorer de nouvelles actions pour découvrir leurs récompenses et exploiter les actions connues comme étant performantes.

📖

termes

Online Mirror Descent

Généralisation de la descente de gradient utilisant une fonction de Bregman pour projeter les mises à jour dans un espace contraint, offrant une flexibilité supérieure dans l'optimisation.

📖

termes

Learning with Partial Information

Paradigme où l'algorithme ne reçoit des informations que sur l'action choisie (bandit) plutôt que sur toutes les actions possibles (full information).

📖

termes

Adaptive Learning Rate

Mécanisme ajustant dynamiquement le pas d'apprentissage en fonction des propriétés locales du paysage de la perte pour optimiser la convergence en environnement non-stationnaire.

📖

termes

Hedge Algorithm

Algorithme d'agrégation d'experts utilisant la mise à jour multiplicative des poids pour garantir une borne de regret logarithmique par rapport au meilleur expert.

📖

termes

Regret Bound

Limite supérieure théorique sur le regret cumulé qu'un algorithme peut subir, permettant de comparer et garantir les performances des méthodes d'optimisation en ligne.

📖

termes

Stochastic Online Learning

Cadre d'apprentissage où les données suivent une distribution de probabilité fixe et inconnue, permettant des garanties de performance en espérance plutôt qu'au pire cas.

Glossaire IA

Bandit Algorithm

Follow the Leader (FTL)

Follow the Regularized Leader (FTRL)

Online Gradient Descent

Multiplicative Weights Update

Expert Advice

Online Convex Optimization

Adversarial Online Learning

Exploration-Exploitation Trade-off

Online Mirror Descent

Learning with Partial Information

Adaptive Learning Rate

Hedge Algorithm

Regret Bound

Stochastic Online Learning

Aucun résultat trouvé