A/B Testing pour ML - Glossaire IA

📖

termes

Interleaving

Technique d'évaluation en ligne où les résultats de plusieurs modèles de ranking sont mélangés et présentés simultanément à l'utilisateur, permettant une collecte de feedback plus rapide et sensible que le A/B testing traditionnel.

📖

termes

Power Analysis

Calcul a priori visant à déterminer la taille d'échantillon minimale nécessaire pour un test A/B afin de détecter un effet d'une magnitude donnée avec un niveau de confiance et une puissance statistique spécifiés.

📖

termes

OAT (Online A/B Testing)

Processus d'évaluation de modèles ou d'algorithmes en conditions réelles, en dirigeant une fraction du trafic utilisateur vers la nouvelle version pour mesurer son impact sur des métriques business.

📖

termes

Canary Release

Stratégie de déploiement progressive où un nouveau modèle est d'abord exposé à un très petit sous-ensemble d'utilisateurs ou de requêtes, avant une expansion graduelle si les indicateurs de santé sont positifs.

📖

termes

Shadow Mode Deployment

Déploiement où le nouveau modèle reçoit une copie du trafic en temps réel et génère des prédictions en parallèle de l'ancien modèle, sans affecter les utilisateurs, pour une comparaison offline des performances.

📖

termes

Novelty Effect

Biais dans les tests A/B où les utilisateurs réagissent positivement à une nouveauté simplement parce qu'elle est nouvelle, indépendamment de sa qualité intrinsèque, ce qui peut fausser l'évaluation d'un nouveau modèle.

📖

termes

Primary Metric

Indicateur de performance clé (KPI) unique et principal utilisé pour prendre la décision finale lors d'un test A/B, choisi pour sa forte corrélation avec l'objectif business (ex: taux de conversion, CTR).

📖

termes

Guardrail Metrics

Métriques secondaires surveillées durant un test pour s'assurer qu'une amélioration sur la métrique principale n'entraîne pas de régression négative sur d'autres aspects importants du système (ex: latence, coût).

📖

termes

CUPED (Controlled-experiment Using Pre-Experiment Data)

Technique de variance reduction utilisant les données comportementales des utilisateurs avant l'expérimentation pour augmenter la sensibilité statistique des tests A/B et réduire la durée nécessaire.

📖

termes

Two-Sided T-Test

Test statistique utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes (ex: performance du modèle A vs B), sans présupposer le sens de cette différence.

📖

termes

Chi-Squared Test

Test d'hypothèse non paramétrique appliqué aux données catégorielles (ex: taux de clics) pour évaluer si la distribution des fréquences observées entre les variantes d'un test est due au hasard.

📖

termes

Sample Ratio Mismatch (SRM)

Anomalie détectée lorsque la proportion réelle d'utilisateurs alloués à chaque variante d'un test s'écarte significativement de la proportion attendue (ex: 50/50), indiquant potentiellement un biais de configuration.

📖

termes

Peeking Problem

Biais introduit en analysant les résultats d'un test A/B de manière répétée avant sa fin planifiée, ce qui augmente le risque de fausses découvertes (faux positifs) en raison de l'inflation du taux d'erreur de type I.

📖

termes

Holdout Group

Segment d'utilisateurs maintenu intentionnellement sur l'ancienne version du modèle même après le déploiement généralisé de la nouvelle version, pour mesurer l'impact à long terme de manière continue.

📖

termes

Counterfactual Evaluation

Méthodologie d'estimation de la performance d'un nouveau modèle en utilisant les logs d'un modèle de production, en simulant comment le nouveau modèle aurait agi sur les mêmes données historiques.

Glossaire IA

Interleaving

Power Analysis

OAT (Online A/B Testing)

Canary Release

Shadow Mode Deployment

Novelty Effect

Primary Metric

Guardrail Metrics

CUPED (Controlled-experiment Using Pre-Experiment Data)

Two-Sided T-Test

Chi-Squared Test

Sample Ratio Mismatch (SRM)

Peeking Problem

Holdout Group

Counterfactual Evaluation

Aucun résultat trouvé