Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Balanced Random Forest
Variante du Random Forest conçue pour gérer les jeux de données déséquilibrés en créant des arbres de décision sur des sous-échantillons bootstrap où chaque classe est représentée de manière égale.
Bootstrap Équilibré
Technique d'échantillonnage où, pour chaque itération, un échantillon bootstrap est tiré de manière à garantir une représentation égale des classes, souvent en sous-échantillonnant la classe majoritaire ou sur-échantillonnant la classe minoritaire.
Sous-échantillonnage de la Classe Majoritaire
Méthode de réduction du déséquilibre des classes consistant à retirer aléatoirement des observations de la classe majoritaire pour réduire sa prédominance dans l'ensemble de données d'entraînement.
Sur-échantillonnage de la Classe Minoritaire
Technique visant à augmenter le nombre d'observations de la classe minoritaire, soit par duplication, soit par la génération de nouvelles observations synthétiques, pour équilibrer la distribution des classes.
Échantillon Bootstrap
Échantillon aléatoire tiré avec remise à partir de l'ensemble de données d'origine, utilisé dans les méthodes de bagging pour entraîner chaque modèle de l'ensemble sur un sous-ensemble légèrement différent des données.
Score de Gini
Mesure de l'impureté d'un nœud dans un arbre de décision, quantifiant la probabilité qu'une observation choisie au hasard dans le nœud soit mal classée si elle était étiquetée aléatoirement selon la distribution des classes.
AUC-ROC (Area Under the Receiver Operating Characteristic Curve)
Métrique de performance qui mesure la capacité d'un classificateur à distinguer entre les classes, représentant l'aire sous la courbe qui trace le taux de vrais positifs en fonction du taux de faux positifs.
EasyEnsemble
Algorithme d'apprentissage ensembliste qui crée plusieurs sous-ensembles de la classe majoritaire, entraîne un classificateur sur chaque sous-ensemble combiné à la totalité de la classe minoritaire, et agrège les prédictions.
BalanceCascade
Méthode ensembliste itérative qui entraîne séquentiellement des classificateurs sur des ensembles de données de plus en plus équilibrés, en retirant correctement les exemples de la classe majoritaire qui sont bien classés à chaque étape.
Rappel (Recall ou Sensibilité)
Métrique qui mesure la proportion d'observations positives réelles qui ont été correctement identifiées par le modèle, essentielle pour évaluer la performance sur la classe minoritaire.