Glosario IA
El diccionario completo de la Inteligencia Artificial
Validación Cruzada Anidada
Técnica de evaluación de modelos que utiliza dos bucles de validación cruzada anidados para evitar el sobreajuste durante la optimización de hiperparámetros. El bucle interno selecciona los mejores hiperparámetros mientras que el bucle externo evalúa el rendimiento del modelo seleccionado de manera imparcial.
Bucle Interno
Primer nivel de validación cruzada en la validación cruzada anidada, responsable de la selección y optimización de los hiperparámetros del modelo. Este bucle utiliza un conjunto de validación separado para identificar la configuración óptima antes de la evaluación final.
Bucle Externo
Segundo nivel de validación cruzada en la validación cruzada anidada, proporcionando una estimación no sesgada del rendimiento del modelo después de la selección de hiperparámetros. Los datos de prueba de este bucle nunca se utilizan durante la optimización de hiperparámetros.
Sobreajuste de Hiperparámetros
Fenómeno donde los hiperparámetros se optimizan para rendir específicamente en el conjunto de validación, comprometiendo la generalización a nuevos datos. Este problema ocurre cuando la misma validación cruzada se utiliza para la selección de hiperparámetros y la evaluación final.
Sesgo de Selección
Error sistemático introducido durante la selección de modelo o hiperparámetros cuando el conjunto de prueba se utiliza implícitamente en el proceso de optimización. Este sesgo conduce a una estimación optimista e irreal del rendimiento del modelo en producción.
Búsqueda en Cuadrícula Anidada
Método que combina la validación cruzada anidada con la búsqueda exhaustiva de hiperparámetros en una cuadrícula predefinida. Cada configuración de la cuadrícula se evalúa por el bucle interno antes de que la mejor sea probada por el bucle externo.
Error de Generalización Estimado
Medida de rendimiento obtenida por el bucle externo de la validación cruzada anidada, representando una aproximación del error del modelo en datos no vistos. Esta estimación se considera más confiable que la obtenida por validación cruzada simple.
Optimización Secuencial
Proceso donde la selección de hiperparámetros y la evaluación del modelo se realizan secuencialmente pero en conjuntos de datos distintos para evitar la contaminación. Este enfoque se implementa fundamentalmente en la validación cruzada anidada.
Validación Cruzada de Tres Niveles
Extensión de la validación cruzada anidada que añade un tercer nivel para la selección entre diferentes familias de modelos. Cada nivel utiliza datos disjuntos para garantizar una evaluación totalmente imparcial del pipeline completo.
Fuga de Información Temporal
Problema específico de los datos seriales donde la validación cruzada anidada es esencial para mantener el orden cronológico entre los conjuntos de entrenamiento, validación y prueba. Este enfoque previene el uso de información futura en la optimización.
Estabilidad de Selección
Capacidad de la validación cruzada anidada para identificar hiperparámetros robustos que rinden de manera consistente a través de diferentes pliegues de validación externa. Una baja estabilidad indica una fuerte dependencia de los datos de entrenamiento específicos.
Costo Computacional Cuadrático
Complejidad algorítmica de la validación cruzada anidada, que requiere O(k²) entrenamientos donde k es el número de pliegues. Este alto costo es el compromiso necesario para obtener una evaluación no sesgada del rendimiento del modelo.
Validación Cruzada Monte Carlo Anidada
Variante de la validación cruzada anidada que utiliza muestreos aleatorios con reemplazo para los bucles interno y externo. Este enfoque reduce la correlación entre las estimaciones manteniendo la imparcialidad de la evaluación.
Pipeline de Evaluación
Arquitectura de software donde la validación cruzada anidada se implementa como un pipeline completo que integra preprocesamiento, selección de características, optimización de hiperparámetros y evaluación final. Esta estructura garantiza la reproducibilidad y la ausencia de fuga de datos.
Intervalos de Confianza Anidados
Método estadístico que utiliza los resultados del bucle externo para calcular intervalos de confianza sobre el rendimiento del modelo. Estos intervalos reflejan la incertidumbre debida tanto a la variabilidad de los datos como al proceso de selección de hiperparámetros.