Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
LASSO Regression
Méthode de régularisation L1 qui pénalise les coefficients absolus des caractéristiques, forçant certains coefficients à zéro pour effectuer une sélection automatique des variables.
Mutual Information
Mesure statistique quantifiant la dépendance entre deux variables, utilisée pour évaluer la pertinence des caractéristiques par rapport à la variable cible.
Chi-Square Test
Test statistique évaluant l'indépendance entre les caractéristiques catégorielles et la variable cible, utilisé pour filtrer les variables non pertinentes.
ANOVA F-test
Méthode statistique comparant les variances entre les groupes pour évaluer l'importance des caractéristiques numériques par rapport à une variable cible catégorielle.
Boruta Algorithm
Algorithme de sélection de caractéristiques basé sur les forêts aléatoires qui compare l'importance des vraies caractéristiques avec des caractéristiques shadow générées aléatoirement.
SelectKBest
Méthode de sélection univariée choisissant les k caractéristiques ayant les scores statistiques les plus élevés selon un test spécifique (chi2, f_classif, mutual_info_classif).
Variance Threshold
Technique de filtrage basique éliminant les caractéristiques dont la variance est inférieure à un seuil prédéfini, considérées comme peu informatives.
Sequential Feature Selection
Méthode gloutonne ajoutant ou supprimant séquentiellement des caractéristiques pour optimiser une métrique de performance du modèle selon une stratégie forward ou backward.
Genetic Algorithm for Feature Selection
Approche métaheuristique utilisant les principes de sélection naturelle pour explorer l'espace des sous-ensembles de caractéristiques et trouver une solution quasi-optimale.
SHAP Values
Méthode d'interprétabilité basée sur la théorie des jeux quantifiant l'impact de chaque caractéristique sur les prédictions individuelles du modèle.
Correlation-based Feature Selection
Méthode évaluant la pertinence des caractéristiques en analysant leur corrélation avec la variable cible tout en minimisant la redondance entre caractéristiques.
Information Gain
Mesure quantifiant la réduction d'entropie de la variable cible lorsqu'une caractéristique est connue, utilisée pour évaluer la pertinence des variables.
Relief Algorithm
Algorithme de sélection de caractéristiques filtrant évaluant la pertinence des variables en comparant les distances entre les instances similaires et dissemblables.
Auto Feature Selection
Processus automatisé combinant multiples techniques de sélection pour identifier le sous-ensemble optimal de caractéristiques sans intervention manuelle.
Embedded Methods
Approches de sélection de caractéristiques intégrées directement dans le processus d'entraînement du modèle, comme les arbres de décision ou les méthodes de régularisation.
Wrapper Methods
Techniques de sélection utilisant un modèle de machine learning pour évaluer la qualité des sous-ensembles de caractéristiques par validation croisée ou métriques de performance.