Glosario IA
El diccionario completo de la Inteligencia Artificial
Regularización L1/L2
Mecanismos de penalización integrados en XGBoost para controlar la complejidad del modelo y prevenir el sobreajuste. L1 (Lasso) favorece la parsimonia mientras que L2 (Ridge) reduce la magnitud de los pesos.
Max Depth
Parámetro que controla la profundidad máxima de cada árbol de decisión en el conjunto, limitando así la complejidad individual de los aprendices. Profundidad típica entre 3 y 10 para equilibrar sesgo-varianza.
Subsample
Fracción de observaciones de entrenamiento muestreadas aleatoriamente para construir cada árbol, introduciendo estocasticidad para reducir el sobreajuste. Valores comunes entre 0.5 y 1.0.
Colsample_bytree
Proporción de características seleccionadas aleatoriamente para cada árbol, similar al enfoque de Random Forest para mejorar la robustez y reducir la correlación entre árboles. Permite el submuestreo horizontal de características.
Algoritmo de búsqueda de divisiones
Algoritmo optimizado de búsqueda de los mejores puntos de división utilizando un enfoque aproximado ponderado por cuantiles para acelerar el entrenamiento en grandes conjuntos de datos. Reduce significativamente la complejidad computacional.
Algoritmo consciente de dispersión
Capacidad de XGBoost para manejar eficientemente valores faltantes y matrices dispersas sin imputación previa. Aprende automáticamente la dirección óptima para los valores faltantes durante las divisiones.
Procesamiento paralelo
Implementación multihilo que paraleliza la construcción de árboles a nivel de características e instancias para acelerar el entrenamiento. También admite procesamiento distribuido mediante frameworks como Hadoop o Spark.
Validación cruzada
Funcionalidad nativa de XGBoost que permite la evaluación robusta del modelo mediante validación cruzada k-fold integrada con detención anticipada automática. Optimiza la selección de hiperparámetros y previene el sobreajuste.
Objective Function
Fonction mathématique combinant la perte de prédiction et les termes de régularisation que XGBoost optimise lors de l'entraînement. Supporte multiples objectifs: régression, classification binaire/multi-classe, ranking.
Evaluation Metrics
Ensemble de métriques personnalisables pour surveiller la performance pendant l'entraînement: RMSE, MAE, LogLoss, AUC, Error Rate, etc. Peuvent différer de l'objectif d'optimisation principal.
DMatrix
Structure de données optimisée spécifique à XGBoost pour stocker efficacement les datasets en mémoire avec support natif du sparse format. Accélère l'accès aux données et réduit l'empreinte mémoire.