Clustering de texte - AI-ordlista

📖

termer

K-Means Clustering

Algorithme de partitionnement qui divise les documents en K clusters en minimisant la variance intra-cluster, en assignant chaque document au centroïde le plus proche.

📖

termer

Hierarchical Clustering

Méthode de clustering qui construit une hiérarchie de clusters imbriqués, soit par approche ascendante (agglomérative) soit descendante (divisive), représentée par un dendrogramme.

📖

termer

Jaccard Index

Coefficient de similarité qui mesure la similarité entre deux ensembles de documents en calculant le rapport de leur intersection sur leur union.

📖

termer

Latent Semantic Analysis (LSA)

Technique de réduction dimensionnelle utilisant la décomposition en valeurs singulières (SVD) pour découvrir les relations sémantiques latentes entre les termes et les documents.

📖

termer

N-grams

Séquences continues de n éléments (mots, caractères) dans un texte utilisées pour capturer le contexte local et améliorer la représentation sémantique des documents.

📖

termer

Elbow Method

Technique heuristique pour déterminer le nombre optimal de clusters en identifiant le point où l'ajout de clusters supplémentaires ne réduit plus significativement la variance intra-cluster.

📖

termer

Agglomerative Clustering

Approche ascendante du clustering hiérarchique qui fusionne itérativement les clusters les plus proches jusqu'à atteindre un critère d'arrêt prédéfini.

📖

termer

Document Clustering

Processus de regroupement automatique de documents en clusters basés sur leur similarité de contenu, permettant l'organisation et la découverte de structures thématiques.

📖

termer

Term Frequency

Mesure normalisée de la fréquence d'apparition d'un terme dans un document, souvent utilisée comme composante de base dans les modèles de représentation vectorielle.

📖

termer

Document-Term Matrix

Structure de données tabulaire où chaque ligne représente un document et chaque colonne un terme du vocabulaire, avec les cellules contenant les poids associés.

AI-ordlista

K-Means Clustering

Hierarchical Clustering

Jaccard Index

Latent Semantic Analysis (LSA)

N-grams

Elbow Method

Agglomerative Clustering

Document Clustering

Term Frequency

Document-Term Matrix

Inga resultat hittades