Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Vrai Positif (TP)
Résultat correct où le modèle prédit positivement une observation qui est effectivement positive, indiquant une classification réussie de la classe d'intérêt. Le nombre de vrais positifs est crucial pour évaluer la capacité du modèle à identifier correctement les cas pertinents.
Faux Positif (FP)
Erreur de classification où le modèle prédit incorrectement une observation comme positive alors qu'elle est réellement négative, correspondant à une alarme fausse. Les faux positifs sont particulièrement coûteux dans des domaines comme le diagnostic médical ou la détection de fraude.
Précision (Precision)
Métrique calculée comme le ratio de vrais positifs sur la somme des vrais et faux positifs, mesurant la proportion de prédictions positives correctes parmi toutes les prédictions positives. Elle est particulièrement importante lorsque le coût des faux positifs est élevé.
Rappel (Recall)
Aussi appelé sensibilité, mesure le ratio de vrais positifs sur la somme des vrais positifs et faux négatifs, évaluant la capacité du modèle à identifier toutes les observations positives réelles. Le rappel est crucial lorsque les faux négatifs ont des conséquences graves.
Courbe ROC
Graphique représentant le taux de vrais positifs en fonction du taux de faux positifs pour différents seuils de classification, illustrant le compromis entre sensibilité et spécificité. L'aire sous cette courbe (AUC) quantifie la performance globale du classificateur.
Régression Logistique
Modèle linéaire généralisé utilisant la fonction sigmoïde pour mapper les prédictions continues à une probabilité entre 0 et 1 en classification binaire. Ce modèle interprétable est souvent utilisé comme baseline pour les problèmes de classification dichotomique.
Seuil de Décision
Valeur limite (généralement 0.5) utilisée pour convertir les probabilités de sortie en prédictions binaires, au-dessus de laquelle l'observation est classée comme positive. L'ajustement de ce seuil permet d'optimiser le compromis entre précision et rappel.
Déséquilibre de Classes
Situation où une classe est significativement plus représentée que l'autre dans le dataset d'entraînement, pouvant biaiser le modèle vers la classe majoritaire. Cette problématique nécessite des techniques spécifiques comme le suréchantillonnage ou la pondération des classes.
SMOTE
Technique de suréchantillonnage synthétique générant de nouveaux exemples de la classe minoritaire par interpolation entre instances existantes, équilibrant ainsi la distribution des classes sans duplication exacte. SMOTE est particulièrement efficace pour améliorer les performances sur datasets déséquilibrés.
Arbre de Décision Binaire
Algorithme de classification utilisant une structure hiérarchique de décisions binaires pour partitionner l'espace des caractéristiques en régions pures, chaque feuille représentant une classe prédite. Les arbres de décision offrent une grande interprétabilité mais sont sujets au surapprentissage.
Spécificité
Mesure calculée comme le ratio de vrais négatifs sur la somme des vrais négatifs et faux positifs, évaluant la capacité du modèle à identifier correctement les observations négatives. La spécificité est complémentaire au rappel et cruciale dans les tests de dépistage.