AI 詞彙表
人工智能完整詞典
Entropie de Shannon
Mesure mathématique de l'incertitude ou du désordre dans un ensemble de données, calculée comme la somme des probabilités multipliées par leur logarithme négatif. Utilisée comme critère de division pour quantifier l'impureté d'un nœud dans les arbres de décision.
Splitting Criterion
Règle mathématique utilisée pour déterminer le meilleur attribut et seuil de division à chaque nœud d'un arbre de décision, basée sur la maximisation du gain d'information ou la minimisation de l'impureté. Détermine la structure et l'efficacité prédictive de l'arbre final.
Conditional Entropy
Mesure de l'incertitude restante sur une variable aléatoire Y lorsqu'on connaît la valeur d'une autre variable X, essentielle pour le calcul du gain d'information. Représente l'entropie moyenne des distributions conditionnelles de Y sachant chaque valeur de X.
Information Ratio
Variante normalisée du gain d'information divisant ce dernier par l'entropie intrinsèque de l'attribut de division pour éviter le biais envers les attributs avec de nombreuses valeurs. Compense la tendance naturelle du gain d'information à favoriser les attributs très granulaires.
MDL Principle
Principe de Description de Longueur Minimale utilisant la théorie de l'information pour équilibrer complexité du modèle et qualité d'ajustement, pénalisant les divisions n'apportant pas suffisamment d'information par rapport à leur coût descriptif. Alternative régularisée aux critères de division purs.
Entropy-Based Pruning
Technique d'élagage post-élagage utilisant des critères entropiques pour évaluer si la suppression d'une branche améliore le compromis biais-variance du modèle. Compare le gain d'information potentiel au coût de complexité additionnelle.
Joint Entropy
Mesure de l'incertitude totale d'un système composé de plusieurs variables aléatoires simultanément, fondamentale pour comprendre les relations entre attributs dans la construction d'arbres de décision. Utilisée dans le calcul de l'information mutuelle.
Gain Ratio
Modification du gain d'information normalisée par l'entropie de partition pour corriger le biais envers les attributs à forte cardinalité, introduite dans l'algorithme C4.5. Maintient les avantages du gain d'information tout en réduisant sa sensibilité au nombre de valeurs.
Relative Information Gain
Version normalisée du gain d'information exprimée comme proportion de l'entropie initiale, permettant la comparaison entre différents ensembles de données ou problèmes. Facilite l'interprétation et la benchmarking des performances de division.
Binary Splitting
Stratégie de division créant exactement deux nœuds enfants à chaque étape, simplifiant le calcul du gain d'information et réduisant la complexité structurelle de l'arbre. Optimise l'efficacité computationnelle tout en préservant la puissance expressive du modèle.
Multi-way Splitting
Approche de division créant autant de nœuds enfants qu'il y a de valeurs distinctes pour l'attribut sélectionné, maximisant potentiellement le gain d'information brut. Nécessite souvent des techniques de régularisation comme le gain ratio pour éviter le surapprentissage.