Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Croissance Leaf-wise
Stratégie de division des arbres qui choisit la feuille avec la plus grande perte de réduction pour la diviser, contrairement à la croissance level-wise, permettant une convergence plus rapide avec moins de profondeur.
Feature Binning
Technique de discrétisation des caractéristiques continues en intervalles discrets (bins) pour accélérer le calcul des points de division et réduire l'empreinte mémoire, au détriment d'une légère perte de précision.
Gradient-Based One-Side Sampling (GOSS)
Méthode d'échantillonnage innovante de LightGBM qui conserve toutes les instances avec de grands gradients et effectue un échantillonnage aléatoire sur celles à petits gradients, accélérant l'entraînement sans perte significative de précision.
Exclusive Feature Bundling (EFB)
Algorithme de réduction de dimensionnalité qui identifie et regroupe les caractéristiques mutuellement exclusives (rarement non-nulles simultanément) en une seule caractéristique composite, réduisant ainsi le nombre de caractéristiques.
Histogramme de gradients
Structure de données utilisée par LightGBM pour stocker les gradients et les hessiennes dans des bins, permettant un calcul rapide des statistiques pour chaque point de division potentiel lors de la construction des arbres.
Num Leaves
Paramètre principal de LightGBM contrôlant le nombre maximal de feuilles dans chaque arbre, influençant directement la complexité du modèle et le compromis biais-variance, plus important que `max_depth` pour la croissance leaf-wise.
L1 et L2 Regularization
Paramètres de régularisation (`lambda_l1`, `lambda_l2`) appliqués aux poids des feuilles pour contrôler la complexité du modèle et prévenir le surapprentissage en pénalisant respectivement les poids élevés et la magnitude des poids.
Min Data in Leaf
Nombre minimum d'échantillons requis dans une feuille (ou poids total minimum), un paramètre clé pour éviter la création de feuilles trop spécifiques et lutter contre le surapprentissage dans les modèles LightGBM.
CatBoost Feature Handling
Capacité de LightGBM à gérer nativement les caractéristiques catégorielles en utilisant une transformation spécifique qui les mappe à des entiers, évitant ainsi l'encodage one-hot manuel et améliorant l'efficacité.
Leaf-wise Growth Overfitting
Risque spécifique à la croissance leaf-wise où le modèle peut surapprendre en créant des feuilles très profondes et spécialisées, nécessitant une régularisation accrue (e.g., `num_leaves`, `min_data_in_leaf`) pour le contrôler.
DART (Dropouts meet Multiple Additive Regression Trees)
Variante de boosting implémentée dans LightGBM qui applique la technique de dropout aux arbres précédents lors de l'ajout d'un nouvel arbre, améliorant la régularisation et la performance sur certains jeux de données.