A/B Testing pour ML - Bảng thuật ngữ Trí tuệ nhân tạo

📖

thuật ngữ

Interleaving

Technique d'évaluation en ligne où les résultats de plusieurs modèles de ranking sont mélangés et présentés simultanément à l'utilisateur, permettant une collecte de feedback plus rapide et sensible que le A/B testing traditionnel.

📖

thuật ngữ

Power Analysis

Calcul a priori visant à déterminer la taille d'échantillon minimale nécessaire pour un test A/B afin de détecter un effet d'une magnitude donnée avec un niveau de confiance et une puissance statistique spécifiés.

📖

thuật ngữ

OAT (Online A/B Testing)

Processus d'évaluation de modèles ou d'algorithmes en conditions réelles, en dirigeant une fraction du trafic utilisateur vers la nouvelle version pour mesurer son impact sur des métriques business.

📖

thuật ngữ

Canary Release

Stratégie de déploiement progressive où un nouveau modèle est d'abord exposé à un très petit sous-ensemble d'utilisateurs ou de requêtes, avant une expansion graduelle si les indicateurs de santé sont positifs.

📖

thuật ngữ

Shadow Mode Deployment

Déploiement où le nouveau modèle reçoit une copie du trafic en temps réel et génère des prédictions en parallèle de l'ancien modèle, sans affecter les utilisateurs, pour une comparaison offline des performances.

📖

thuật ngữ

Novelty Effect

Biais dans les tests A/B où les utilisateurs réagissent positivement à une nouveauté simplement parce qu'elle est nouvelle, indépendamment de sa qualité intrinsèque, ce qui peut fausser l'évaluation d'un nouveau modèle.

📖

thuật ngữ

Primary Metric

Indicateur de performance clé (KPI) unique et principal utilisé pour prendre la décision finale lors d'un test A/B, choisi pour sa forte corrélation avec l'objectif business (ex: taux de conversion, CTR).

📖

thuật ngữ

Guardrail Metrics

Métriques secondaires surveillées durant un test pour s'assurer qu'une amélioration sur la métrique principale n'entraîne pas de régression négative sur d'autres aspects importants du système (ex: latence, coût).

📖

thuật ngữ

CUPED (Controlled-experiment Using Pre-Experiment Data)

Variance reduction technique using user behavioral data before the experiment to increase the statistical sensitivity of A/B tests and reduce the required duration.

📖

thuật ngữ

Two-Sided T-Test

Statistical test used to determine if there is a significant difference between the means of two groups (e.g., performance of model A vs B), without presupposing the direction of this difference.

📖

thuật ngữ

Chi-Squared Test

Non-parametric hypothesis test applied to categorical data (e.g., click-through rates) to evaluate whether the observed frequency distribution between test variants is due to chance.

📖

thuật ngữ

Sample Ratio Mismatch (SRM)

Anomaly detected when the actual proportion of users allocated to each variant of a test deviates significantly from the expected proportion (e.g., 50/50), potentially indicating a configuration bias.

📖

thuật ngữ

Peeking Problem

Bias introduced by repeatedly analyzing the results of an A/B test before its planned completion, which increases the risk of false discoveries (false positives) due to the inflation of the type I error rate.

📖

thuật ngữ

Holdout Group

User segment intentionally kept on the old version of the model even after the generalized deployment of the new version, to measure the long-term impact continuously.

📖

thuật ngữ

Counterfactual Evaluation

Methodology for estimating the performance of a new model using production model logs, by simulating how the new model would have acted on the same historical data.

Thuật ngữ AI

Interleaving

Power Analysis

OAT (Online A/B Testing)

Canary Release

Shadow Mode Deployment

Novelty Effect

Primary Metric

Guardrail Metrics

CUPED (Controlled-experiment Using Pre-Experiment Data)

Two-Sided T-Test

Chi-Squared Test

Sample Ratio Mismatch (SRM)

Peeking Problem

Holdout Group

Counterfactual Evaluation

Không tìm thấy kết quả