AI 词汇表
人工智能完整词典
Pseudo-étiquettes
Étiquettes générées automatiquement par des algorithmes de clustering pour approximer les vraies étiquettes dans un contexte d'apprentissage auto-supervisé. Elles permettent de transformer des données non étiquetées en données étiquetées artificiellement pour l'entraînement supervisé.
Clustering hiérarchique auto-supervisé
Méthode de clustering qui construit une hiérarchie de clusters imbriqués sans supervision explicite, utilisée pour générer des pseudo-étiquettes à différents niveaux de granularité. Cette approche permet une exploration multi-échelle de la structure des données.
K-means auto-supervisé
Variante de l'algorithme K-means classique appliquée dans un cadre auto-supervisé pour créer des pseudo-étiquettes à partir de données non étiquetées. Les centres de clusters obtenus servent ensuite de prototypes pour l'entraînement supervisé.
DBSCAN adaptatif
Version améliorée de DBSCAN qui ajuste automatiquement ses paramètres en fonction de la densité locale des données dans un contexte auto-supervisé. Cette méthode permet de découvrir des clusters de formes variées et de densités hétérogènes.
Clustering spectral semi-supervisé
Technode de clustering qui utilise les valeurs propres d'une matrice de similarité pour identifier des structures de données, avec contraintes partielles générées automatiquement. Elle combine l'information spectrale avec des pseudo-étiquettes pour améliorer la cohérence des clusters.
Étiquetage faible automatique
Processus de génération d'étiquettes imprécises mais utiles à partir de caractéristiques intrinsèques des données sans intervention humaine. Ces étiquettes faibles servent de signal d'apprentissage pour des modèles supervisés robustes.
Apprentissage par contraste auto-supervisé
Paradigme d'apprentissage où le modèle apprend à distinguer les échantillons similaires (positifs) des échantillons dissimilaires (négatifs) sans étiquettes explicites. Les clusters formés naturellement fournissent des pseudo-étiquettes pour l'entraînement.
Clustering basé sur la densité
Famille d'algorithmes qui identifient des clusters comme des régions denses séparées par des régions de faible densité dans l'espace des caractéristiques. Cette approche est particulièrement efficace pour découvrir des clusters de formes arbitraires.
Algorithme de clustering itératif
Méthode de clustering qui raffine progressivement les pseudo-étiquettes à travers plusieurs itérations d'assignation et de mise à jour des centroïdes. Chaque itération améliore la cohésion intra-cluster et la séparation inter-cluster.
Validation de cluster interne
Ensemble de métriques évaluant la qualité des clusters générés sans référence à des étiquettes externes, utilisées pour optimiser les pseudo-étiquettes. Ces mesures incluent le coefficient de silhouette, l'indice de Davies-Bouldin et le score de Calinski-Harabasz.
Clustering à haute dimension
Défi technique consistant à regrouper des données dans des espaces de très grande dimensionnalité où la notion de distance perd sa signification. Des techniques spécialisées comme la réduction de dimensionnalité sont nécessaires pour un clustering efficace.
Réduction de dimensionnalité pour clustering
Étape préliminaire essentielle dans le clustering auto-supervisé qui transforme les données en un espace de plus faible dimension tout en préservant la structure des clusters. Elle améliore l'efficacité computationnelle et la qualité des pseudo-étiquettes.
Clustering basé sur les graphes
Approche de clustering qui modélise les données comme un graphe où les nœuds représentent les échantillons et les arêtes les similarités. Les communautés détectées dans ce graphe correspondent aux clusters utilisés pour générer les pseudo-étiquettes.
Clustering par propagation d'affinité
Algorithme qui identifie des exemplaires représentatifs dans les données et attribue chaque point à l'exemplaire le plus approprié sans nécessiter de nombre de clusters prédéfini. Cette méthode est particulièrement adaptée pour découvrir des structures de données complexes.
Clustering par mélanges gaussiens
Approche probabiliste qui modélise les données comme un mélange de plusieurs distributions gaussiennes, chaque composante représentant un cluster. Les probabilités d'appartenance servent de pseudo-étiquettes souples pour l'apprentissage supervisé.
Clustering incrémental
Méthode de clustering capable de mettre à jour les pseudo-étiquettes au fur et à mesure de l'arrivée de nouvelles données sans nécessiter de recalcul complet. Cette approche est essentielle pour les systèmes d'apprentissage en continu.
多视图聚类
一种整合来自同一数据的多种表示或视角信息的范式,以提高聚类质量和伪标签的质量。该方法利用不同视图之间的互补性,实现更稳健的学习。
深度聚类
将深度神经网络与聚类算法相结合,以端到端的方式学习最优表示并生成伪标签。该方法能够捕捉数据中复杂的非线性结构。