Glosario IA
El diccionario completo de la Inteligencia Artificial
Interleaving
Técnica de evaluación en línea donde los resultados de varios modelos de clasificación se mezclan y se presentan simultáneamente al usuario, permitiendo una recolección de retroalimentación más rápida y sensible que el A/B testing tradicional.
Power Analysis
Cálculo a priori que busca determinar el tamaño mínimo de muestra necesario para una prueba A/B para detectar un efecto de una magnitud dada con un nivel de confianza y una potencia estadística especificados.
OAT (Online A/B Testing)
Proceso de evaluación de modelos o algoritmos en condiciones reales, dirigiendo una fracción del tráfico de usuarios hacia la nueva versión para medir su impacto en métricas de negocio.
Canary Release
Estrategia de despliegue gradual donde un nuevo modelo se expone primero a un subconjunto muy pequeño de usuarios o consultas, antes de una expansión gradual si los indicadores de salud son positivos.
Shadow Mode Deployment
Despliegue donde el nuevo modelo recibe una copia del tráfico en tiempo real y genera predicciones en paralelo con el modelo antiguo, sin afectar a los usuarios, para una comparación offline del rendimiento.
Novelty Effect
Sesgo en las pruebas A/B donde los usuarios reaccionan positivamente a una novedad simplemente porque es nueva, independientemente de su calidad intrínseca, lo que puede distorsionar la evaluación de un nuevo modelo.
Primary Metric
Indicador clave de rendimiento (KPI) único y principal utilizado para tomar la decisión final en una prueba A/B, elegido por su fuerte correlación con el objetivo de negocio (ej: tasa de conversión, CTR).
Guardrail Metrics
Métricas secundarias monitoreadas durante una prueba para asegurar que una mejora en la métrica principal no provoque una regresión negativa en otros aspectos importantes del sistema (ej: latencia, costo).
CUPED (Controlled-experiment Using Pre-Experiment Data)
Technique de variance reduction utilisant les données comportementales des utilisateurs avant l'expérimentation pour augmenter la sensibilité statistique des tests A/B et réduire la durée nécessaire.
Two-Sided T-Test
Test statistique utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes (ex: performance du modèle A vs B), sans présupposer le sens de cette différence.
Chi-Squared Test
Test d'hypothèse non paramétrique appliqué aux données catégorielles (ex: taux de clics) pour évaluer si la distribution des fréquences observées entre les variantes d'un test est due au hasard.
Sample Ratio Mismatch (SRM)
Anomalie détectée lorsque la proportion réelle d'utilisateurs alloués à chaque variante d'un test s'écarte significativement de la proportion attendue (ex: 50/50), indiquant potentiellement un biais de configuration.
Peeking Problem
Biais introduit en analysant les résultats d'un test A/B de manière répétée avant sa fin planifiée, ce qui augmente le risque de fausses découvertes (faux positifs) en raison de l'inflation du taux d'erreur de type I.
Holdout Group
Segment d'utilisateurs maintenu intentionnellement sur l'ancienne version du modèle même après le déploiement généralisé de la nouvelle version, pour mesurer l'impact à long terme de manière continue.
Counterfactual Evaluation
Méthodologie d'estimation de la performance d'un nouveau modèle en utilisant les logs d'un modèle de production, en simulant comment le nouveau modèle aurait agi sur les mêmes données historiques.