A/B Testing pour ML - AI Glossarium

📖

termen

Interleaving

Technique d'évaluation en ligne où les résultats de plusieurs modèles de ranking sont mélangés et présentés simultanément à l'utilisateur, permettant une collecte de feedback plus rapide et sensible que le A/B testing traditionnel.

📖

termen

Power Analysis

Calcul a priori visant à déterminer la taille d'échantillon minimale nécessaire pour un test A/B afin de détecter un effet d'une magnitude donnée avec un niveau de confiance et une puissance statistique spécifiés.

📖

termen

OAT (Online A/B Testing)

Processus d'évaluation de modèles ou d'algorithmes en conditions réelles, en dirigeant une fraction du trafic utilisateur vers la nouvelle version pour mesurer son impact sur des métriques business.

📖

termen

Canary Release

Stratégie de déploiement progressive où un nouveau modèle est d'abord exposé à un très petit sous-ensemble d'utilisateurs ou de requêtes, avant une expansion graduelle si les indicateurs de santé sont positifs.

📖

termen

Shadow Mode Deployment

Déploiement où le nouveau modèle reçoit une copie du trafic en temps réel et génère des prédictions en parallèle de l'ancien modèle, sans affecter les utilisateurs, pour une comparaison offline des performances.

📖

termen

Novelty Effect

Biais dans les tests A/B où les utilisateurs réagissent positivement à une nouveauté simplement parce qu'elle est nouvelle, indépendamment de sa qualité intrinsèque, ce qui peut fausser l'évaluation d'un nouveau modèle.

📖

termen

Primary Metric

Indicateur de performance clé (KPI) unique et principal utilisé pour prendre la décision finale lors d'un test A/B, choisi pour sa forte corrélation avec l'objectif business (ex: taux de conversion, CTR).

📖

termen

Guardrail Metrics

Métriques secondaires surveillées durant un test pour s'assurer qu'une amélioration sur la métrique principale n'entraîne pas de régression négative sur d'autres aspects importants du système (ex: latence, coût).

📖

termen

CUPED (Controlled-experiment Using Pre-Experiment Data)

Variance reduction technique using user behavioral data before the experiment to increase the statistical sensitivity of A/B tests and reduce the required duration.

📖

termen

Two-Sided T-Test

Statistical test used to determine if there is a significant difference between the means of two groups (e.g., performance of model A vs B), without presupposing the direction of this difference.

📖

termen

Chi-Squared Test

Non-parametric hypothesis test applied to categorical data (e.g., click-through rates) to evaluate whether the observed frequency distribution between test variants is due to chance.

📖

termen

Sample Ratio Mismatch (SRM)

Anomaly detected when the actual proportion of users allocated to each variant of a test deviates significantly from the expected proportion (e.g., 50/50), potentially indicating a configuration bias.

📖

termen

Peeking Problem

Bias introduced by repeatedly analyzing the results of an A/B test before its planned completion, which increases the risk of false discoveries (false positives) due to the inflation of the type I error rate.

📖

termen

Holdout Group

User segment intentionally kept on the old version of the model even after the generalized deployment of the new version, to measure the long-term impact continuously.

📖

termen

Counterfactual Evaluation

Methodology for estimating the performance of a new model using production model logs, by simulating how the new model would have acted on the same historical data.

AI-woordenlijst

Interleaving

Power Analysis

OAT (Online A/B Testing)

Canary Release

Shadow Mode Deployment

Novelty Effect

Primary Metric

Guardrail Metrics

CUPED (Controlled-experiment Using Pre-Experiment Data)

Two-Sided T-Test

Chi-Squared Test

Sample Ratio Mismatch (SRM)

Peeking Problem

Holdout Group

Counterfactual Evaluation

Geen resultaten gevonden