Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Stream Classification
Processus d'assignation d'étiquettes prédéfinies aux instances de données arrivant séquentiellement dans un flux continu, sans possibilité de revisiter les données précédentes. Cette technique permet de classifier des données en temps réel tout en s'adaptant aux changements dynamiques des distributions.
Hoeffding Tree
Algorithme d'arbre de décision incrémental qui construit un modèle à partir d'un flux de données en utilisant l'inégalité de Hoeffding pour décider quand diviser un nœud. Il garantit que l'arbre construit est asymptotiquement identique à celui construit sur les données batch avec une probabilité contrôlable.
Data Stream Mining
Domaine d'étude des algorithmes et techniques pour extraire des connaissances à partir de flux de données continus et potentiellement infinis. Ces algorithmes doivent traiter les données en une seule passe avec des ressources mémoire et computationnelles limitées.
Incremental Learning
Paradigme d'apprentissage où le modèle est mis à jour continuellement à mesure que de nouvelles données deviennent disponibles, sans nécessiter de réentraînement complet. Cette approche est essentielle pour les systèmes évoluant dans des environnements dynamiques avec des flux de données continus.
Concept Evolution
Phénomène distinct du concept drift où de nouvelles classes émergent dans le flux de données au fil du temps. La détection de la concept evolution est critique pour maintenir la pertinence des modèles de classification dans des environnements où les étiquettes peuvent évoluer.
Ensemble Methods for Streams
Techniques combinant plusieurs classifieurs pour améliorer les performances et la robustesse dans la classification de flux de données. Ces méthodes incluent le bagging adaptatif, le boosting en ligne et les approches basées sur la diversité pour gérer efficacement le concept drift.
VFDT (Very Fast Decision Tree)
Algorithme pionnier d'arbre de décision pour flux de données utilisant l'inégalité de Hoeffding pour garantir des décisions statistiquement valides avec un nombre minimal d'instances. Il constitue la base de nombreux algorithmes modernes de classification de flux.
Drift Detection Method (DDM)
Technique statistique pour détecter le concept drift en surveillant le taux d'erreur du classifieur et ses variations. Elle utilise des bornes de confiance basées sur la distribution binomiale pour identifier quand les performances du modèle se dégradent de manière significative.
K-Nearest Neighbors for Streams
Adaptation de l'algorithme KNN pour les flux de données utilisant des structures de données efficaces comme les kd-trees ou les LSH pour maintenir des requêtes de voisinage rapides. Ces méthodes doivent gérer l'évolution des données et les contraintes mémoire inhérentes aux flux.
Naive Bayes for Streams
Version incrémentale du classifieur Naive Bayes qui met à jour les probabilités conditionnelles à mesure que de nouvelles instances arrivent dans le flux. Cet algorithme est particulièrement efficace pour les flux de données hautes dimensions grâce à sa complexité computationnelle linéaire.
Time-Decay Functions
Mécanismes assignant des poids décroissants aux instances plus anciennes dans un flux pour donner plus d'importance aux données récentes. Ces fonctions sont essentielles pour adapter les modèles aux changements graduels et maintenir leur pertinence temporelle.
Resource-Aware Stream Mining
Approche de classification de flux qui adapte dynamiquement l'utilisation des ressources computationnelles et mémoire en fonction des contraintes et de la charge du système. Elle permet de maintenir des performances acceptables même sous des limitations de ressources strictes.
Prequential Evaluation
Méthodologie d'évaluation spécifique aux flux de données où chaque instance est d'abord utilisée pour tester le modèle avant d'être utilisée pour l'entraîner. Cette approche test-then-train fournit une mesure réaliste des performances sur des données non stationnaires.