Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Interleaving
Technique d'évaluation en ligne où les résultats de plusieurs modèles de ranking sont mélangés et présentés simultanément à l'utilisateur, permettant une collecte de feedback plus rapide et sensible que le A/B testing traditionnel.
Power Analysis
Calcul a priori visant à déterminer la taille d'échantillon minimale nécessaire pour un test A/B afin de détecter un effet d'une magnitude donnée avec un niveau de confiance et une puissance statistique spécifiés.
OAT (Online A/B Testing)
Processus d'évaluation de modèles ou d'algorithmes en conditions réelles, en dirigeant une fraction du trafic utilisateur vers la nouvelle version pour mesurer son impact sur des métriques business.
Canary Release
Stratégie de déploiement progressive où un nouveau modèle est d'abord exposé à un très petit sous-ensemble d'utilisateurs ou de requêtes, avant une expansion graduelle si les indicateurs de santé sont positifs.
Shadow Mode Deployment
Déploiement où le nouveau modèle reçoit une copie du trafic en temps réel et génère des prédictions en parallèle de l'ancien modèle, sans affecter les utilisateurs, pour une comparaison offline des performances.
Novelty Effect
Biais dans les tests A/B où les utilisateurs réagissent positivement à une nouveauté simplement parce qu'elle est nouvelle, indépendamment de sa qualité intrinsèque, ce qui peut fausser l'évaluation d'un nouveau modèle.
Primary Metric
Indicateur de performance clé (KPI) unique et principal utilisé pour prendre la décision finale lors d'un test A/B, choisi pour sa forte corrélation avec l'objectif business (ex: taux de conversion, CTR).
Guardrail Metrics
Métriques secondaires surveillées durant un test pour s'assurer qu'une amélioration sur la métrique principale n'entraîne pas de régression négative sur d'autres aspects importants du système (ex: latence, coût).
CUPED (Controlled-experiment Using Pre-Experiment Data)
Technique de variance reduction utilisant les données comportementales des utilisateurs avant l'expérimentation pour augmenter la sensibilité statistique des tests A/B et réduire la durée nécessaire.
Two-Sided T-Test
Test statistique utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes (ex: performance du modèle A vs B), sans présupposer le sens de cette différence.
Chi-Squared Test
Test d'hypothèse non paramétrique appliqué aux données catégorielles (ex: taux de clics) pour évaluer si la distribution des fréquences observées entre les variantes d'un test est due au hasard.
Sample Ratio Mismatch (SRM)
Anomalie détectée lorsque la proportion réelle d'utilisateurs alloués à chaque variante d'un test s'écarte significativement de la proportion attendue (ex: 50/50), indiquant potentiellement un biais de configuration.
Peeking Problem
Biais introduit en analysant les résultats d'un test A/B de manière répétée avant sa fin planifiée, ce qui augmente le risque de fausses découvertes (faux positifs) en raison de l'inflation du taux d'erreur de type I.
Holdout Group
Segment d'utilisateurs maintenu intentionnellement sur l'ancienne version du modèle même après le déploiement généralisé de la nouvelle version, pour mesurer l'impact à long terme de manière continue.
Counterfactual Evaluation
Méthodologie d'estimation de la performance d'un nouveau modèle en utilisant les logs d'un modèle de production, en simulant comment le nouveau modèle aurait agi sur les mêmes données historiques.