Information Gain et Entropie

📖

術語

Entropie de Shannon

Mesure mathématique de l'incertitude ou du désordre dans un ensemble de données, calculée comme la somme des probabilités multipliées par leur logarithme négatif. Utilisée comme critère de division pour quantifier l'impureté d'un nœud dans les arbres de décision.

📖

術語

Splitting Criterion

Règle mathématique utilisée pour déterminer le meilleur attribut et seuil de division à chaque nœud d'un arbre de décision, basée sur la maximisation du gain d'information ou la minimisation de l'impureté. Détermine la structure et l'efficacité prédictive de l'arbre final.

📖

術語

Conditional Entropy

Mesure de l'incertitude restante sur une variable aléatoire Y lorsqu'on connaît la valeur d'une autre variable X, essentielle pour le calcul du gain d'information. Représente l'entropie moyenne des distributions conditionnelles de Y sachant chaque valeur de X.

📖

術語

Information Ratio

Variante normalisée du gain d'information divisant ce dernier par l'entropie intrinsèque de l'attribut de division pour éviter le biais envers les attributs avec de nombreuses valeurs. Compense la tendance naturelle du gain d'information à favoriser les attributs très granulaires.

📖

術語

MDL Principle

Principe de Description de Longueur Minimale utilisant la théorie de l'information pour équilibrer complexité du modèle et qualité d'ajustement, pénalisant les divisions n'apportant pas suffisamment d'information par rapport à leur coût descriptif. Alternative régularisée aux critères de division purs.

📖

術語

Entropy-Based Pruning

Technique d'élagage post-élagage utilisant des critères entropiques pour évaluer si la suppression d'une branche améliore le compromis biais-variance du modèle. Compare le gain d'information potentiel au coût de complexité additionnelle.

📖

術語

Joint Entropy

Mesure de l'incertitude totale d'un système composé de plusieurs variables aléatoires simultanément, fondamentale pour comprendre les relations entre attributs dans la construction d'arbres de décision. Utilisée dans le calcul de l'information mutuelle.

📖

術語

Gain Ratio

Modification du gain d'information normalisée par l'entropie de partition pour corriger le biais envers les attributs à forte cardinalité, introduite dans l'algorithme C4.5. Maintient les avantages du gain d'information tout en réduisant sa sensibilité au nombre de valeurs.

📖

術語

Relative Information Gain

Version normalisée du gain d'information exprimée comme proportion de l'entropie initiale, permettant la comparaison entre différents ensembles de données ou problèmes. Facilite l'interprétation et la benchmarking des performances de division.

📖

術語

Binary Splitting

Stratégie de division créant exactement deux nœuds enfants à chaque étape, simplifiant le calcul du gain d'information et réduisant la complexité structurelle de l'arbre. Optimise l'efficacité computationnelle tout en préservant la puissance expressive du modèle.

📖

術語

Multi-way Splitting

Approche de division créant autant de nœuds enfants qu'il y a de valeurs distinctes pour l'attribut sélectionné, maximisant potentiellement le gain d'information brut. Nécessite souvent des techniques de régularisation comme le gain ratio pour éviter le surapprentissage.

AI 詞彙表