Глоссарий ИИ
Полный словарь искусственного интеллекта
Распределенный K-means
Алгоритм кластеризации, который параллелизирует классический алгоритм K-means на нескольких вычислительных узлах, используя фреймворки, такие как MapReduce или Spark, для эффективной обработки массивных наборов данных.
Распределенное иерархическое кластерирование
Подход иерархического кластеризации, адаптированный для Big Data, который разделяет вычисления на параллельные этапы, используя техники редукции данных и интеллектуального слияния для поддержания иерархической согласованности.
Параллельный DBSCAN
Параллельная реализация алгоритма DBSCAN (Density-Based Spatial Clustering of Applications with Noise), оптимизированная для распределенной обработки крупномасштабных пространственных данных при сохранении локальной плотности.
Распределенный Mean Shift
Распределенная версия алгоритма Mean Shift, которая вычисляет моды плотности параллельно, адаптированная для непараметрического кластерирования на массивных наборах данных в высокой размерности.
Распределенное спектральное кластерирование
Алгоритм спектрального кластерирования, оптимизированный для Big Data, который разлагает вычисление собственных значений на параллельные задачи, используя техники матричной аппроксимации для управления графами большого размера.
BIRCH
Balanced Iterative Reducing and Clustering using Hierarchies: иерархический инкрементальный алгоритм, разработанный специально для больших баз данных, использующий структуру CF-tree (Clustering Feature tree) для эффективного кластеризации за один проход.
CURE
Clustering Using REpresentatives: иерархический алгоритм, который использует набор репрезентативных точек на кластер для захвата формы и размера, позволяя масштабируемое кластерирование, устойчивое к выбросам на больших наборах данных.
CLARANS
Clustering Large Applications based upon RANdomized Search: алгоритм кластеризации на основе случайного поиска, оптимизированный для больших приложений, предлагающий компромисс между K-means и PAM (Partitioning Around Medoids).
Streaming K-means
Variante de K-means adaptée aux flux de données continues qui met à jour les centroïdes incrémentalement, permettant le clustering en temps réel de données volumineuses arrivant séquentiellement.
MapReduce Clustering
Paradigme de clustering utilisant le framework MapReduce pour distribuer les calculs sur des clusters de machines, divisant les données en chunks pour un traitement parallèle efficace à l'échelle du pétaoctet.
Spark MLlib Clustering
Ensemble d'algorithmes de clustering implémentés dans la bibliothèque MLlib de Apache Spark, optimisés pour le traitement en mémoire et la parallélisation sur des clusters distribués pour le Big Data.
Distributed Gaussian Mixture Model
Modèle de mélange gaussien distribué qui effectue l'estimation des paramètres via l'algorithme EM (Expectation-Maximization) parallélisé, adapté au clustering probabiliste sur données massives.
Scalable Hierarchical Clustering
Famille d'algorithmes hiérarchiques optimisés pour la scalabilité, utilisant des techniques d'échantillonnage, de résumé de données et de calcul distribué pour gérer efficacement des millions de points.
Parallel Spectral Clustering
Implémentation haute performance du clustering spectral qui parallélise les étapes de calcul de la matrice de similarité, de décomposition en valeurs propres et d'assignation des clusters pour des graphes massifs.
Distributed Density-Based Clustering
Catégorie d'algorithmes basés sur la densité adaptés au traitement distribué, utilisant des techniques de partitionnement spatial et de fusion de résultats locaux pour identifier des clusters de forme arbitraire dans des données massives.
Big Data Clustering Optimization
Ensemble de techniques d'optimisation appliquées aux algorithmes de clustering pour le Big Data, incluant l'indexation distribuée, la réduction dimensionnelle et la parallélisation GPU pour accélérer les calculs.
Приблизительная кластеризация по ближайшим соседям
Техника кластеризации, использующая алгоритмы приблизительного поиска ближайших соседей для снижения вычислительной сложности, важная для кластеризации больших данных в пространствах высокой размерности.