Glosario IA
El diccionario completo de la Inteligencia Artificial
Crecimiento Leaf-wise
Estrategia de división de árboles que elige la hoja con la mayor reducción de pérdida para dividirla, a diferencia del crecimiento level-wise, permitiendo una convergencia más rápida con menos profundidad.
Feature Binning
Técnica de discretización de características continuas en intervalos discretos (bins) para acelerar el cálculo de los puntos de división y reducir la huella de memoria, a costa de una ligera pérdida de precisión.
Gradient-Based One-Side Sampling (GOSS)
Método de muestreo innovador de LightGBM que conserva todas las instancias con gradientes grandes y realiza un muestreo aleatorio sobre aquellas con gradientes pequeños, acelerando el entrenamiento sin pérdida significativa de precisión.
Exclusive Feature Bundling (EFB)
Algoritmo de reducción de dimensionalidad que identifica y agrupa las características mutuamente exclusivas (raramente no nulas simultáneamente) en una sola característica compuesta, reduciendo así el número de características.
Histograma de gradientes
Estructura de datos utilizada por LightGBM para almacenar los gradientes y las hessianas en bins, permitiendo un cálculo rápido de las estadísticas para cada punto de división potencial durante la construcción de los árboles.
Num Leaves
Parámetro principal de LightGBM que controla el número máximo de hojas en cada árbol, influyendo directamente en la complejidad del modelo y el compromiso sesgo-varianza, más importante que `max_depth` para el crecimiento leaf-wise.
Regularización L1 y L2
Parámetros de regularización (`lambda_l1`, `lambda_l2`) aplicados a los pesos de las hojas para controlar la complejidad del modelo y prevenir el sobreajuste penalizando respectivamente los pesos altos y la magnitud de los pesos.
Min Data in Leaf
Número mínimo de muestras requeridas en una hoja (o peso total mínimo), un parámetro clave para evitar la creación de hojas demasiado específicas y luchar contra el sobreajuste en los modelos LightGBM.
Manejo de Características de CatBoost
Capacidad de LightGBM para manejar nativamente las características categóricas utilizando una transformación específica que las mapea a enteros, evitando así la codificación one-hot manual y mejorando la eficiencia.
Sobreajuste por Crecimiento Leaf-wise
Riesgo específico del crecimiento leaf-wise donde el modelo puede sobreajustarse creando hojas muy profundas y especializadas, lo que requiere una regularización aumentada (p. ej., `num_leaves`, `min_data_in_leaf`) para controlarlo.
DART (Dropouts meet Multiple Additive Regression Trees)
Variante de boosting implementada en LightGBM que aplica la técnica de dropout a los árboles anteriores al añadir un nuevo árbol, mejorando la regularización y el rendimiento en ciertos conjuntos de datos.