Glosario IA
El diccionario completo de la Inteligencia Artificial
Sesgo
Error sistemático derivado de suposiciones demasiado simplificadoras en el modelo de aprendizaje, lo que conduce a un subajuste. Un sesgo elevado indica que el modelo no logra capturar las relaciones complejas presentes en los datos de entrenamiento.
Varianza
Medida de la sensibilidad del modelo a las fluctuaciones aleatorias presentes en el conjunto de entrenamiento, provocando sobreajuste. Una varianza alta significa que el modelo captura el ruido de los datos en lugar de la tendencia subyacente.
Compromiso Sesgo-Varianza
Dilema fundamental en el aprendizaje automático donde la reducción del sesgo generalmente aumenta la varianza, y viceversa. La optimización de este compromiso permite encontrar el equilibrio adecuado para minimizar el error de generalización total.
Error de generalización
Medida del rendimiento del modelo en datos no vistos, crucial para evaluar su capacidad de predecir correctamente en nuevas muestras. Se descompone en sesgo al cuadrado, varianza y error irreducible según la teoría de sesgo-varianza.
Curva de aprendizaje
Gráfico que representa la evolución del rendimiento del modelo en función del tamaño del conjunto de entrenamiento, permitiendo diagnosticar problemas de sesgo y varianza. El análisis de esta curva ayuda a determinar si es necesario agregar más datos o ajustar la complejidad del modelo.
Regularización
Conjunto de técnicas destinadas a controlar la complejidad del modelo para reducir la varianza y prevenir el sobreajuste. La regularización L1 y L2 añaden términos de penalización a la función de pérdida para limitar la magnitud de los coeficientes del modelo.
Complejidad del modelo
Medida de la capacidad de un modelo para adaptarse a funciones complejas, directamente relacionada con el compromiso sesgo-varianza. La complejidad puede controlarse mediante el número de parámetros, la profundidad de las redes neuronales o el grado de los polinomios.
Error de aproximación
Parte del error debido a la incapacidad de la familia de modelos elegida para representar perfectamente la verdadera función subyacente. Este error, relacionado con el sesgo, persiste incluso con una cantidad infinita de datos de entrenamiento.
Error de estimación
Error resultante del uso de una muestra finita de datos para estimar los parámetros óptimos del modelo. Este componente del error está directamente relacionado con la varianza y disminuye con el aumento del tamaño de los datos de entrenamiento.
Curva de validación
Herramienta de diagnóstico que visualiza el rendimiento del modelo en función de variaciones de hiperparámetros o de la complejidad. La curva de validación ayuda a identificar el punto óptimo donde la diferencia entre los rendimientos de entrenamiento y validación es mínima.
Parada temprana (Early Stopping)
Método de regularización que consiste en detener el entrenamiento antes de la convergencia cuando el rendimiento en el conjunto de validación deja de mejorar. Esta técnica eficaz limita el sobreajuste al encontrar automáticamente el punto óptimo del compromiso sesgo-varianza.
Error irreducible
Parte del error de predicción que no puede eliminarse independientemente del modelo, debido al ruido inherente en los datos. Este componente constituye el límite inferior teórico del error de generalización que cualquier algoritmo debe respetar.
Capacidad VC (Dimensión VC)
Medida teórica de la complejidad de una clase de modelos, que representa el número máximo de puntos que puede separar perfectamente. La dimensión de Vapnik-Chervonenkis proporciona límites teóricos sobre el error de generalización en función del tamaño de la muestra.