KI-Glossar
Das vollständige Wörterbuch der Künstlichen Intelligenz
Vue de données
Représentation distincte des mêmes données utilisée en co-training, où chaque vue fournit des informations complémentaires pour l'apprentissage. Les vues doivent être statistiquement indépendantes conditionnellement à la classe pour garantir l'efficacité du co-training.
Classifieur
Modèle algorithmique chargé d'assigner des étiquettes de classe aux données d'entrée selon des critères pré-définis. En co-training, les classifieurs travaillent en collaboration pour améliorer mutuellement leurs performances.
Étiquetage automatique
Processus par lequel un algorithme assigne des étiquettes aux données non étiquetées sans intervention humaine directe. En co-training, cet étiquetage est basé sur la confiance des classifieurs dans leurs prédictions.
Échantillonnage d'instances
Méthode de sélection des exemples non étiquetés à ajouter à l'ensemble d'entraînement basée sur leur score de confiance. Les instances les plus fiables sont choisies pour enrichir progressivement l'ensemble d'apprentissage.
Divergence de classifieurs
Principe fondamental du co-training où les classifieurs doivent faire des erreurs différentes pour être complémentaires. Cette divergence maximise l'information mutuelle et améliore la robustesse du système global.
Pool de données non étiquetées
Ensemble de données sans étiquettes utilisé par les algorithmes de co-training pour enrichir l'ensemble d'entraînement initial. Ces données sont progressivement étiquetées à mesure que les classifieurs gagnent en confiance.
Seuil de confiance
Valeur numérique déterminant le niveau de confiance minimum requis pour qu'un classifieur étiquette une instance non étiquetée. Ce seuil crucial équilibre entre l'ajout de nouvelles données et le risque d'introduire du bruit.
Co-EM
Variante du co-training inspirée de l'algorithme Expectation-Maximization où les classifieurs s'alternent dans les phases E et M. Chaque classifieur estime les étiquettes manquantes puis optimise ses paramètres sur ces estimations.
Democratic co-learning
Méthode où plusieurs classifieurs votent démocratiquement pour décider de l'étiquetage des nouvelles instances. Chaque classifieur peut utiliser différentes vues ou algorithmes, favorisant la diversité des prédictions.
Single-view co-training
Variante du co-training qui fonctionne avec une seule vue des données en créant artificiellement des vues multiples. Cette approche utilise des sous-ensembles de features ou différentes instances du même algorithme.
Label propagation
Technique semi-supervisée où les étiquettes se propagent à travers un graphe de similarité entre les instances. Complémentaire au co-training, elle peut être utilisée pour initialiser ou raffiner les étiquettes.
Weak supervision
Paradigme d'apprentissage utilisant des étiquettes imprécises, incomplètes ou bruitées pour entraîner des modèles. Le co-training s'inscrit dans ce cadre en générant progressivement des étiquettes de meilleure qualité.
Graph-based co-training
Approche combinant co-training et méthodes basées sur graphes pour exploiter la structure des données. Les nœuds du graphe représentent les instances et les arêtes encodent leurs similarités.
Co-forest
Algorithme de co-training basé sur les random forests où plusieurs arbres de décision s'entraînent mutuellement. Chaque arbre utilise un sous-ensemble aléatoire de features, créant naturellement des vues différentes.
Confidence-based sampling
Stratégie de sélection des instances non étiquetées basée sur les scores de probabilité des classifieurs. Seules les instances dépassant un certain seuil de confiance sont ajoutées à l'ensemble d'entraînement.
Multi-view consistency
Principe selon lequel les prédictions des classifieurs sur différentes vues des mêmes données doivent être cohérentes. Cette hypothèse sous-tend l'efficacité des méthodes de co-training en apprentissage semi-supervisé.