AI 용어집
인공지능 완전 사전
Regularization L1/L2
Mécanismes de pénalité intégrés dans XGBoost pour contrôler la complexité du modèle et prévenir le surapprentissage. L1 (Lasso) favorise la parcimonie tandis que L2 (Ridge) réduit l'amplitude des poids.
Max Depth
Paramètre contrôlant la profondeur maximale de chaque arbre de décision dans l'ensemble, limitant ainsi la complexité individuelle des apprenants. Profondeur typique entre 3 et 10 pour équilibrer biais-variance.
Subsample
Fraction des observations d'entraînement échantillonnées aléatoirement pour construire chaque arbre, introduisant de la stochasticité pour réduire le surapprentissage. Valeurs courantes entre 0.5 et 1.0.
Colsample_bytree
Proportion de features sélectionnées aléatoirement pour chaque arbre, similaire à l'approche Random Forest pour améliorer la robustesse et réduire la corrélation entre arbres. Permet l'feature subsampling horizontal.
Split Finding Algorithm
Algorithme optimisé de recherche des meilleurs points de division utilisant une approche approximative pondérée par quantiles pour accélérer l'entraînement sur grands datasets. Réduit significativement la complexité computationnelle.
Sparse-aware Algorithm
Capacité de XGBoost à traiter efficacement les valeurs manquantes et les matrices creuses sans imputation préalable. Apprend automatiquement la direction optimale pour les valeurs manquantes lors des divisions.
Parallel Processing
Implémentation multithreadée qui parallélise la construction des arbres au niveau des features et des instances pour accélérer l'entraînement. Supporte aussi le traitement distribué via frameworks comme Hadoop ou Spark.
Cross-validation
Fonctionnalité native de XGBoost permettant l'évaluation robuste du modèle via validation croisée k-fold intégrée avec early stopping automatique. Optimise la sélection d'hyperparamètres et prévient le surapprentissage.
Objective Function
Fonction mathématique combinant la perte de prédiction et les termes de régularisation que XGBoost optimise lors de l'entraînement. Supporte multiples objectifs: régression, classification binaire/multi-classe, ranking.
Evaluation Metrics
Ensemble de métriques personnalisables pour surveiller la performance pendant l'entraînement: RMSE, MAE, LogLoss, AUC, Error Rate, etc. Peuvent différer de l'objectif d'optimisation principal.
DMatrix
Structure de données optimisée spécifique à XGBoost pour stocker efficacement les datasets en mémoire avec support natif du sparse format. Accélère l'accès aux données et réduit l'empreinte mémoire.