Глоссарий ИИ
Полный словарь искусственного интеллекта
k-Ближайших Соседей (k-NN)
Непараметрический алгоритм обучения с учителем, который классифицирует новое наблюдение на основе большинства класса его k ближайших соседей в пространстве признаков.
Евклидово расстояние
Стандартная мера расстояния в евклидовом пространстве, вычисляемая как квадратный корень из суммы квадратов разностей между координатами двух точек.
Расстояние Манхэттена
Мера расстояния, вычисляемая как сумма абсолютных значений разностей между координатами двух точек, также называемая расстоянием L1 или такси-расстоянием.
Расстояние Минковского
Обобщенная метрика расстояния, которая включает евклидово расстояние (p=2) и расстояние Манхэттена (p=1) как частные случаи, определяется как корень p-й степени из суммы абсолютных разностей, возведенных в степень p.
Взвешивание по расстоянию
Вариант голосования по большинству, при котором более близкие соседи имеют большее влияние на окончательную классификацию, обычно с использованием обратного расстояния в качестве веса.
KD-дерево
Структура данных, разбивающая k-мерное пространство для ускорения поиска ближайших соседей, уменьшая сложность с O(n) до O(log n) в среднем.
Древовидная структура шаров
Иерархическая структура данных, которая организует точки во вложенные сферы, эффективна для поиска ближайших соседей в высоких размерах, где KD-деревья становятся неэффективными.
Проклятие размерности
Феномен, при котором производительность алгоритмов, основанных на расстоянии, ухудшается в высоких размерах, поскольку все расстояния стремятся стать эквивалентными, делая понятие 'ближайшего' менее значимым.
Гиперпараметр k
Количество соседей, учитываемых в алгоритме k-NN, критически важное для баланса между смещением и дисперсией: малое k создаёт сложную модель, большое k создаёт более сглаженную модель.
Стандартизация данных
Необходимая предобработка для k-NN, где признаки приводятся к одному масштабу, чтобы избежать доминирования переменных с большим диапазоном значений при вычислении расстояния.
k-NN для регрессии
Вариант k-NN, где предсказание является средним (или взвешенным средним) значений k ближайших соседей, а не голосованием по большинству классов.
Расстояние Хэмминга
Мера расстояния для бинарных категориальных данных, вычисляемая как количество позиций, в которых два вектора различаются, используется когда признаки бинарные или категориальные.
Метод локтя
Техника выбора оптимального k путём построения графика ошибки в зависимости от k и выбора точки, где улучшение начинает значительно уменьшаться ('локоть').
K-Fold перекрёстная проверка
Надёжный метод оценки для k-NN, где данные делятся на k подмножеств, позволяющий получить надёжную оценку производительности и помочь в выборе оптимального k.
Полный поиск
Наивный подход для поиска k ближайших соседей путем вычисления расстояния до всех точек набора данных, со сложностью O(n) на запрос.
Приближенный ближайший сосед (ANN)
Семейство алгоритмов, которые находят приближенно ближайших соседей с компромиссом между точностью и скоростью, критически важное для больших наборов данных.