Glosario IA
El diccionario completo de la Inteligencia Artificial
Prueba A/B
Metodología experimental comparando dos versiones (A y B) de un modelo o servicio para determinar cuál funciona mejor según métricas predefinidas, generalmente mediante una distribución aleatoria del tráfico.
Prueba Multivariante
Técnica avanzada probando simultáneamente múltiples variables y sus combinaciones para identificar la optimización global, permitiendo evaluar la interacción entre diferentes factores del modelo.
Despliegue Blue-Green
Patrón de despliegue con dos entornos idénticos donde el tráfico cambia completamente de la versión antigua (Blue) a la nueva (Green) después de validación completa, minimizando el tiempo de inactividad.
Bandera de Funcionalidad
Mecanismo de control que permite activar/desactivar dinámicamente funcionalidades o modelos específicos sin redespliegue, facilitando experimentos y rollbacks rápidos.
División de Tráfico
Técnica de enrutamiento inteligente distribuyendo proporcionalmente las solicitudes entre diferentes versiones de modelos según reglas configurables para pruebas A/B o despliegues graduales.
Significancia Estadística
Medida probabilística determinando si las diferencias observadas entre variantes probadas se deben a efectos reales más que al azar, generalmente con un umbral de p-valor < 0.05.
Valor-p
Probabilidad de observar resultados al menos tan extremos como los medidos si la hipótesis nula fuera verdadera, sirviendo como criterio decisional en pruebas de hipótesis.
Intervalo de Confianza
Rango de valores estimados que contiene con una probabilidad definida (típicamente 95%) el valor verdadero del parámetro medido, cuantificando la incertidumbre de las estimaciones experimentales.
Control Group
Muestra de población que recibe la versión de referencia (generalmente el modelo actual) que sirve como línea base para la comparación estadística con las variantes experimentales.
Treatment Group
Segmento de población expuesto a la variante experimental del modelo o tratamiento probado, permitiendo medir el impacto relativo en comparación con el grupo de control.
Baseline Model
Modelo de referencia utilizado como punto de comparación para evaluar las mejoras aportadas por nuevas versiones, a menudo el modelo actualmente en producción.
Champion-Challenger
Estrategia de competencia continua donde el modelo campeón actual es constantemente desafiado por modelos contendientes, el de mejor rendimiento reemplazando progresivamente al campeón.
Progressive Rollout
Despliegue incremental de un nuevo modelo con un aumento gradual del porcentaje de tráfico, permitiendo una validación continua y una minimización de los riesgos de impacto negativo.
Experimentation Platform
Infraestructura centralizada que gestiona el ciclo de vida completo de los experimentos, desde la creación de las variantes hasta el análisis estadístico de los resultados y la automatización de las decisiones.
Metric Drift
Fenómeno de degradación progresiva de las métricas de rendimiento de un modelo en producción, detectado a través del monitoreo continuo y que requiere reevaluaciones periódicas.
Sample Size Calculation
Proceso estadístico que determina el número mínimo de observaciones requeridas para detectar una diferencia significativa con una potencia estadística dada, esencial para la planificación de las pruebas.
Prueba A/B Bayesiana
Enfoque alternativo que utiliza probabilidades bayesianas para evaluar variantes, permitiendo decisiones continuas con muestras más pequeñas y una interpretación intuitiva de los resultados.
Prueba Secuencial
Metodología de análisis que permite la evaluación de resultados en intervalos predefinidos sin inflar el riesgo de error de tipo I, optimizando la duración y los costos de los experimentos.