Balanced Random Forest

📖

termes

Variante du Random Forest conçue pour gérer les jeux de données déséquilibrés en créant des arbres de décision sur des sous-échantillons bootstrap où chaque classe est représentée de manière égale.

📖

termes

Technique d'échantillonnage où, pour chaque itération, un échantillon bootstrap est tiré de manière à garantir une représentation égale des classes, souvent en sous-échantillonnant la classe majoritaire ou sur-échantillonnant la classe minoritaire.

📖

termes

Sous-échantillonnage de la Classe Majoritaire

Méthode de réduction du déséquilibre des classes consistant à retirer aléatoirement des observations de la classe majoritaire pour réduire sa prédominance dans l'ensemble de données d'entraînement.

📖

termes

Sur-échantillonnage de la Classe Minoritaire

Technique visant à augmenter le nombre d'observations de la classe minoritaire, soit par duplication, soit par la génération de nouvelles observations synthétiques, pour équilibrer la distribution des classes.

📖

termes

Échantillon Bootstrap

Échantillon aléatoire tiré avec remise à partir de l'ensemble de données d'origine, utilisé dans les méthodes de bagging pour entraîner chaque modèle de l'ensemble sur un sous-ensemble légèrement différent des données.

📖

termes

Score de Gini

Mesure de l'impureté d'un nœud dans un arbre de décision, quantifiant la probabilité qu'une observation choisie au hasard dans le nœud soit mal classée si elle était étiquetée aléatoirement selon la distribution des classes.

📖

termes

AUC-ROC (Area Under the Receiver Operating Characteristic Curve)

Métrique de performance qui mesure la capacité d'un classificateur à distinguer entre les classes, représentant l'aire sous la courbe qui trace le taux de vrais positifs en fonction du taux de faux positifs.

📖

termes

EasyEnsemble

Algorithme d'apprentissage ensembliste qui crée plusieurs sous-ensembles de la classe majoritaire, entraîne un classificateur sur chaque sous-ensemble combiné à la totalité de la classe minoritaire, et agrège les prédictions.

📖

termes

BalanceCascade

Méthode ensembliste itérative qui entraîne séquentiellement des classificateurs sur des ensembles de données de plus en plus équilibrés, en retirant correctement les exemples de la classe majoritaire qui sont bien classés à chaque étape.

📖

termes

Rappel (Recall ou Sensibilité)

Métrique qui mesure la proportion d'observations positives réelles qui ont été correctement identifiées par le modèle, essentielle pour évaluer la performance sur la classe minoritaire.

Glossaire IA