A/B Testing pour ML - AI-ordlista

📖

termer

Interleaving

Technique d'évaluation en ligne où les résultats de plusieurs modèles de ranking sont mélangés et présentés simultanément à l'utilisateur, permettant une collecte de feedback plus rapide et sensible que le A/B testing traditionnel.

📖

termer

Power Analysis

Calcul a priori visant à déterminer la taille d'échantillon minimale nécessaire pour un test A/B afin de détecter un effet d'une magnitude donnée avec un niveau de confiance et une puissance statistique spécifiés.

📖

termer

OAT (Online A/B Testing)

Processus d'évaluation de modèles ou d'algorithmes en conditions réelles, en dirigeant une fraction du trafic utilisateur vers la nouvelle version pour mesurer son impact sur des métriques business.

📖

termer

Canary Release

Stratégie de déploiement progressive où un nouveau modèle est d'abord exposé à un très petit sous-ensemble d'utilisateurs ou de requêtes, avant une expansion graduelle si les indicateurs de santé sont positifs.

📖

termer

Shadow Mode Deployment

Déploiement où le nouveau modèle reçoit une copie du trafic en temps réel et génère des prédictions en parallèle de l'ancien modèle, sans affecter les utilisateurs, pour une comparaison offline des performances.

📖

termer

Novelty Effect

Biais dans les tests A/B où les utilisateurs réagissent positivement à une nouveauté simplement parce qu'elle est nouvelle, indépendamment de sa qualité intrinsèque, ce qui peut fausser l'évaluation d'un nouveau modèle.

📖

termer

Primary Metric

Indicateur de performance clé (KPI) unique et principal utilisé pour prendre la décision finale lors d'un test A/B, choisi pour sa forte corrélation avec l'objectif business (ex: taux de conversion, CTR).

📖

termer

Guardrail Metrics

Métriques secondaires surveillées durant un test pour s'assurer qu'une amélioration sur la métrique principale n'entraîne pas de régression négative sur d'autres aspects importants du système (ex: latence, coût).

📖

termer

CUPED (Controlled-experiment Using Pre-Experiment Data)

Variance reduction technique using user behavioral data before the experiment to increase the statistical sensitivity of A/B tests and reduce the required duration.

📖

termer

Two-Sided T-Test

Statistical test used to determine if there is a significant difference between the means of two groups (e.g., performance of model A vs B), without presupposing the direction of this difference.

📖

termer

Chi-Squared Test

Non-parametric hypothesis test applied to categorical data (e.g., click-through rates) to evaluate whether the observed frequency distribution between test variants is due to chance.

📖

termer

Sample Ratio Mismatch (SRM)

Anomaly detected when the actual proportion of users allocated to each variant of a test deviates significantly from the expected proportion (e.g., 50/50), potentially indicating a configuration bias.

📖

termer

Peeking Problem

Bias introduced by repeatedly analyzing the results of an A/B test before its planned completion, which increases the risk of false discoveries (false positives) due to the inflation of the type I error rate.

📖

termer

Holdout Group

User segment intentionally kept on the old version of the model even after the generalized deployment of the new version, to measure the long-term impact continuously.

📖

termer

Counterfactual Evaluation

Methodology for estimating the performance of a new model using production model logs, by simulating how the new model would have acted on the same historical data.

AI-ordlista

Interleaving

Power Analysis

OAT (Online A/B Testing)

Canary Release

Shadow Mode Deployment

Novelty Effect

Primary Metric

Guardrail Metrics

CUPED (Controlled-experiment Using Pre-Experiment Data)

Two-Sided T-Test

Chi-Squared Test

Sample Ratio Mismatch (SRM)

Peeking Problem

Holdout Group

Counterfactual Evaluation

Inga resultat hittades