Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
C4.5
Algorithme d'apprentissage supervisé développé par Quinlan en 1993, extension de ID3 capable de gérer les attributs continus et les données manquantes, utilisant le ratio de gain comme critère de division.
C5.0
Version améliorée du C4.5 développée par Quinlan, offrant des performances supérieures, une gestion plus efficace des ensembles de données volumineux et la capacité de générer des ensembles d'arbres (boosting).
Ratio de gain
Critère de division utilisé dans C4.5 pour corriger le biais du gain d'information envers les attributs ayant de nombreuses valeurs, calculé comme le gain d'information divisé par l'entropie intrinsèque de l'attribut.
Entropie intrinsèque
Mesure utilisée dans le calcul du ratio de gain pour pénaliser les attributs avec un grand nombre de valeurs, représentant la quantité d'information potentielle contenue dans la distribution des valeurs d'un attribut.
Discrétisation binaire
Technique utilisée par C4.5 pour transformer les attributs continus en attributs catégoriels binaires en identifiant le point de division optimal qui maximise le gain d'information.
Gestion des valeurs manquantes
Capacité du C4.5 à traiter les instances avec des attributs manquants en utilisant des méthodes de pondération probabiliste ou en répartissant l'instance fractionnellement selon les branches possibles.
Élagage pessimiste
Méthode de réduction de la complexité dans C4.5 qui élimine les branches non essentielles en utilisant une estimation statistique pessimiste de l'erreur basée sur la distribution binomiale.
Boosting C5.0
Technique d'ensemble learning implémentée dans C5.0 qui combine plusieurs arbres de décision faibles pour créer un classificateur fort, améliorant significativement la précision de prédiction.
Point de coupe optimal
Valeur seuil déterminée par C4.5 pour diviser un attribut continu en deux intervalles, sélectionnée pour maximiser le gain d'information de la division résultante.
Gain d'information normalisé
Variante du gain d'information utilisée dans certains contextes pour éviter le biais, similaire au ratio de gain mais avec une approche mathématique légèrement différente de normalisation.
Arbre de décision C4.5
Structure hiérarchique produite par l'algorithme C4.5 où chaque nœud interne représente un test sur un attribut, chaque branche représente un résultat de test, et chaque feuille représente une étiquette de classe.
Fenêtre glissante C5.0
Optimisation dans C5.0 pour traiter efficacement les grands ensembles de données en utilisant une fenêtre d'échantillons qui se déplace à travers l'ensemble de données complet lors de la construction de l'arbre.
Coefficient de confiance
Paramètre dans C4.5 (généralement 25%) utilisé dans l'estimation de l'erreur pour l'élagage, contrôlant le niveau de pessimisme dans l'évaluation des performances des branches de l'arbre.
Règles IF-THEN C4.5
Représentation alternative des arbres de décision générée par C4.5 où chaque chemin de la racine à une feuille est converti en une règle de classification conditionnelle.
Complexité computationnelle C4.5
Coût algorithmique du C4.5 de l'ordre de O(n * m * log n) où n est le nombre d'instances et m le nombre d'attributs, optimisé par des techniques de tri et de calcul incrémental.
Division multi-voie
Capacité du C4.5 à créer des nœuds avec plus de deux branches pour les attributs catégoriels, contrairement à d'autres algorithmes qui se limitent à des divisions binaires.