Glossario IA
Il dizionario completo dell'Intelligenza Artificiale
Biais
Erreur systématique provenant d'hypothèses trop simplificatrices dans le modèle d'apprentissage, conduisant à un sous-apprentissage. Un biais élevé indique que le modèle ne parvient pas à capturer les relations complexes présentes dans les données d'entraînement.
Variance
Mesure de la sensibilité du modèle aux fluctuations aléatoires présentes dans l'ensemble d'entraînement, provoquant un surapprentissage. Une variance élevée signifie que le modèle capture le bruit des données plutôt que la tendance sous-jacente.
Trade-off Biais-Variance
Dilemme fondamental en apprentissage automatique où la réduction du biais augmente généralement la variance, et vice-versa. L'optimisation de ce compromis permet de trouver le juste équilibre pour minimiser l'erreur de généralisation totale.
Erreur de généralisation
Mesure de la performance du modèle sur des données invisibles, cruciale pour évaluer sa capacité à prédire correctement sur de nouveaux échantillons. Elle se décompose en biais au carré, variance et erreur irréductible selon la théorie biais-variance.
Courbe d'apprentissage
Graphique représentant l'évolution des performances du modèle en fonction de la taille de l'ensemble d'entraînement, permettant de diagnostiquer les problèmes de biais et de variance. L'analyse de cette courbe aide à déterminer si l'ajout de données ou l'ajustement de la complexité du modèle est nécessaire.
Régularisation
Ensemble de techniques visant à contrôler la complexité du modèle pour réduire la variance et prévenir le surapprentissage. La régularisation L1 et L2 ajoutent des termes de pénalité à la fonction de perte pour limiter l'amplitude des coefficients du modèle.
Complexité du modèle
Mesure de la capacité d'un modèle à s'adapter à des fonctions complexes, directement liée au compromis biais-variance. La complexité peut être contrôlée par le nombre de paramètres, la profondeur des réseaux de neurones ou le degré des polynômes.
Erreur d'approximation
Partie de l'erreur due à l'incapacité de la famille de modèles choisie à représenter parfaitement la vraie fonction sous-jacente. Cette erreur, liée au biais, persiste même avec une quantité infinie de données d'entraînement.
Erreur d'estimation
Erreur résultant de l'utilisation d'un échantillon fini de données pour estimer les paramètres optimaux du modèle. Cette composante de l'erreur est directement liée à la variance et diminue avec l'augmentation de la taille des données d'entraînement.
Courbe de validation
Outil de diagnostic visualisant les performances du modèle en fonction de variations d'hyperparamètres ou de la complexité. La courbe de validation aide à identifier le point optimal où l'écart entre les performances d'entraînement et de validation est minimal.
Early Stopping
Méthode de régularisation consistant à arrêter l'entraînement avant convergence lorsque la performance sur l'ensemble de validation cesse de s'améliorer. Cette technique efficace limite le surapprentissage en trouvant automatiquement le point optimal du compromis biais-variance.
Erreur irréductible
Partie de l'erreur de prédiction qui ne peut être éliminée quel que soit le modèle, due au bruit inhérent aux données. Cette composante constitue la borne inférieure théorique de l'erreur de généralisation que tout algorithme doit respecter.
Capacité VC
Mesure théorique de la complexité d'une classe de modèles, représentant le nombre maximal de points qu'elle peut parfaitement séparer. La dimension de Vapnik-Chervonenkis fournit des bornes théoriques sur l'erreur de généralisation en fonction de la taille d'échantillon.