Test A/B para ML - Glosario IA

📖

términos

Interleaving

Técnica de evaluación en línea donde los resultados de varios modelos de clasificación se mezclan y se presentan simultáneamente al usuario, permitiendo una recolección de retroalimentación más rápida y sensible que el A/B testing tradicional.

📖

términos

Power Analysis

Cálculo a priori que busca determinar el tamaño mínimo de muestra necesario para una prueba A/B para detectar un efecto de una magnitud dada con un nivel de confianza y una potencia estadística especificados.

📖

términos

OAT (Online A/B Testing)

Proceso de evaluación de modelos o algoritmos en condiciones reales, dirigiendo una fracción del tráfico de usuarios hacia la nueva versión para medir su impacto en métricas de negocio.

📖

términos

Canary Release

Estrategia de despliegue gradual donde un nuevo modelo se expone primero a un subconjunto muy pequeño de usuarios o consultas, antes de una expansión gradual si los indicadores de salud son positivos.

📖

términos

Shadow Mode Deployment

Despliegue donde el nuevo modelo recibe una copia del tráfico en tiempo real y genera predicciones en paralelo con el modelo antiguo, sin afectar a los usuarios, para una comparación offline del rendimiento.

📖

términos

Novelty Effect

Sesgo en las pruebas A/B donde los usuarios reaccionan positivamente a una novedad simplemente porque es nueva, independientemente de su calidad intrínseca, lo que puede distorsionar la evaluación de un nuevo modelo.

📖

términos

Primary Metric

Indicador clave de rendimiento (KPI) único y principal utilizado para tomar la decisión final en una prueba A/B, elegido por su fuerte correlación con el objetivo de negocio (ej: tasa de conversión, CTR).

📖

términos

Guardrail Metrics

Métricas secundarias monitoreadas durante una prueba para asegurar que una mejora en la métrica principal no provoque una regresión negativa en otros aspectos importantes del sistema (ej: latencia, costo).

📖

términos

CUPED (Controlled-experiment Using Pre-Experiment Data)

Technique de variance reduction utilisant les données comportementales des utilisateurs avant l'expérimentation pour augmenter la sensibilité statistique des tests A/B et réduire la durée nécessaire.

📖

términos

Two-Sided T-Test

Test statistique utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes (ex: performance du modèle A vs B), sans présupposer le sens de cette différence.

📖

términos

Chi-Squared Test

Test d'hypothèse non paramétrique appliqué aux données catégorielles (ex: taux de clics) pour évaluer si la distribution des fréquences observées entre les variantes d'un test est due au hasard.

📖

términos

Sample Ratio Mismatch (SRM)

Anomalie détectée lorsque la proportion réelle d'utilisateurs alloués à chaque variante d'un test s'écarte significativement de la proportion attendue (ex: 50/50), indiquant potentiellement un biais de configuration.

📖

términos

Peeking Problem

Biais introduit en analysant les résultats d'un test A/B de manière répétée avant sa fin planifiée, ce qui augmente le risque de fausses découvertes (faux positifs) en raison de l'inflation du taux d'erreur de type I.

📖

términos

Holdout Group

Segment d'utilisateurs maintenu intentionnellement sur l'ancienne version du modèle même après le déploiement généralisé de la nouvelle version, pour mesurer l'impact à long terme de manière continue.

📖

términos

Counterfactual Evaluation

Méthodologie d'estimation de la performance d'un nouveau modèle en utilisant les logs d'un modèle de production, en simulant comment le nouveau modèle aurait agi sur les mêmes données historiques.

Glosario IA

Interleaving

Power Analysis

OAT (Online A/B Testing)

Canary Release

Shadow Mode Deployment

Novelty Effect

Primary Metric

Guardrail Metrics

CUPED (Controlled-experiment Using Pre-Experiment Data)

Two-Sided T-Test

Chi-Squared Test

Sample Ratio Mismatch (SRM)

Peeking Problem

Holdout Group

Counterfactual Evaluation

No se encontraron resultados