Глоссарий ИИ
Полный словарь искусственного интеллекта
Кластеризация методом K-средних
Алгоритм разбиения, который делит документы на K кластеров, минимизируя внутрикластерную дисперсию и назначая каждый документ ближайшему центроиду.
Иерархическая кластеризация
Метод кластеризации, который строит иерархию вложенных кластеров, либо с использованием восходящего (агломеративного), либо нисходящего (дивизивного) подхода, представленный дендрограммой.
Индекс Жаккара
Коэффициент сходства, который измеряет сходство между двумя наборами документов, вычисляя отношение их пересечения к их объединению.
Латентный семантический анализ (LSA)
Техника снижения размерности, использующая сингулярное разложение (SVD) для выявления скрытых семантических отношений между терминами и документами.
N-граммы
Непрерывные последовательности из n элементов (слов, символов) в тексте, используемые для захвата локального контекста и улучшения семантического представления документов.
Метод локтя
Эвристическая техника для определения оптимального количества кластеров путем идентификации точки, в которой добавление дополнительных кластеров больше не значительно снижает внутрикластерную дисперсию.
Агломеративная кластеризация
Восходящий подход иерархической кластеризации, который итеративно объединяет ближайшие кластеры до достижения заранее определенного критерия остановки.
Кластеризация документов
Процесс автоматической группировки документов в кластеры на основе сходства их содержимого, позволяющий организовывать и обнаруживать тематические структуры.
Частота термина
Нормализованная мера частоты появления термина в документе, часто используемая как базовый компонент в моделях векторного представления.
Матрица документ-термин
Табличная структура данных, где каждая строка представляет документ и каждый столбец представляет термин из словаря, с ячейками, содержащими соответствующие веса.