XGBoost - 인공지능 용어집

📖

용어

Regularization L1/L2

Mécanismes de pénalité intégrés dans XGBoost pour contrôler la complexité du modèle et prévenir le surapprentissage. L1 (Lasso) favorise la parcimonie tandis que L2 (Ridge) réduit l'amplitude des poids.

📖

용어

Max Depth

Paramètre contrôlant la profondeur maximale de chaque arbre de décision dans l'ensemble, limitant ainsi la complexité individuelle des apprenants. Profondeur typique entre 3 et 10 pour équilibrer biais-variance.

📖

용어

Subsample

Fraction des observations d'entraînement échantillonnées aléatoirement pour construire chaque arbre, introduisant de la stochasticité pour réduire le surapprentissage. Valeurs courantes entre 0.5 et 1.0.

📖

용어

Colsample_bytree

Proportion de features sélectionnées aléatoirement pour chaque arbre, similaire à l'approche Random Forest pour améliorer la robustesse et réduire la corrélation entre arbres. Permet l'feature subsampling horizontal.

📖

용어

Split Finding Algorithm

Algorithme optimisé de recherche des meilleurs points de division utilisant une approche approximative pondérée par quantiles pour accélérer l'entraînement sur grands datasets. Réduit significativement la complexité computationnelle.

📖

용어

Sparse-aware Algorithm

Capacité de XGBoost à traiter efficacement les valeurs manquantes et les matrices creuses sans imputation préalable. Apprend automatiquement la direction optimale pour les valeurs manquantes lors des divisions.

📖

용어

Parallel Processing

Implémentation multithreadée qui parallélise la construction des arbres au niveau des features et des instances pour accélérer l'entraînement. Supporte aussi le traitement distribué via frameworks comme Hadoop ou Spark.

📖

용어

Cross-validation

Fonctionnalité native de XGBoost permettant l'évaluation robuste du modèle via validation croisée k-fold intégrée avec early stopping automatique. Optimise la sélection d'hyperparamètres et prévient le surapprentissage.

📖

용어

Objective Function

Fonction mathématique combinant la perte de prédiction et les termes de régularisation que XGBoost optimise lors de l'entraînement. Supporte multiples objectifs: régression, classification binaire/multi-classe, ranking.

📖

용어

Evaluation Metrics

Ensemble de métriques personnalisables pour surveiller la performance pendant l'entraînement: RMSE, MAE, LogLoss, AUC, Error Rate, etc. Peuvent différer de l'objectif d'optimisation principal.

📖

용어

DMatrix

Structure de données optimisée spécifique à XGBoost pour stocker efficacement les datasets en mémoire avec support natif du sparse format. Accélère l'accès aux données et réduit l'empreinte mémoire.

AI 용어집