k-Ближайших Соседей (k-NN)

📖

термины

k-Ближайших Соседей (k-NN)

Непараметрический алгоритм обучения с учителем, который классифицирует новое наблюдение на основе большинства класса его k ближайших соседей в пространстве признаков.

📖

термины

Евклидово расстояние

Стандартная мера расстояния в евклидовом пространстве, вычисляемая как квадратный корень из суммы квадратов разностей между координатами двух точек.

📖

термины

Расстояние Манхэттена

Мера расстояния, вычисляемая как сумма абсолютных значений разностей между координатами двух точек, также называемая расстоянием L1 или такси-расстоянием.

📖

термины

Обобщенная метрика расстояния, которая включает евклидово расстояние (p=2) и расстояние Манхэттена (p=1) как частные случаи, определяется как корень p-й степени из суммы абсолютных разностей, возведенных в степень p.

📖

термины

Взвешивание по расстоянию

Вариант голосования по большинству, при котором более близкие соседи имеют большее влияние на окончательную классификацию, обычно с использованием обратного расстояния в качестве веса.

📖

термины

KD-дерево

Структура данных, разбивающая k-мерное пространство для ускорения поиска ближайших соседей, уменьшая сложность с O(n) до O(log n) в среднем.

📖

термины

Древовидная структура шаров

Иерархическая структура данных, которая организует точки во вложенные сферы, эффективна для поиска ближайших соседей в высоких размерах, где KD-деревья становятся неэффективными.

📖

термины

Проклятие размерности

Феномен, при котором производительность алгоритмов, основанных на расстоянии, ухудшается в высоких размерах, поскольку все расстояния стремятся стать эквивалентными, делая понятие 'ближайшего' менее значимым.

📖

термины

Гиперпараметр k

Количество соседей, учитываемых в алгоритме k-NN, критически важное для баланса между смещением и дисперсией: малое k создаёт сложную модель, большое k создаёт более сглаженную модель.

📖

термины

Стандартизация данных

Необходимая предобработка для k-NN, где признаки приводятся к одному масштабу, чтобы избежать доминирования переменных с большим диапазоном значений при вычислении расстояния.

📖

термины

k-NN для регрессии

Вариант k-NN, где предсказание является средним (или взвешенным средним) значений k ближайших соседей, а не голосованием по большинству классов.

📖

термины

Расстояние Хэмминга

Мера расстояния для бинарных категориальных данных, вычисляемая как количество позиций, в которых два вектора различаются, используется когда признаки бинарные или категориальные.

📖

термины

Метод локтя

Техника выбора оптимального k путём построения графика ошибки в зависимости от k и выбора точки, где улучшение начинает значительно уменьшаться ('локоть').

📖

термины

K-Fold перекрёстная проверка

Надёжный метод оценки для k-NN, где данные делятся на k подмножеств, позволяющий получить надёжную оценку производительности и помочь в выборе оптимального k.

📖

термины

Полный поиск

Наивный подход для поиска k ближайших соседей путем вычисления расстояния до всех точек набора данных, со сложностью O(n) на запрос.

📖

термины

Приближенный ближайший сосед (ANN)

Семейство алгоритмов, которые находят приближенно ближайших соседей с компромиссом между точностью и скоростью, критически важное для больших наборов данных.

Глоссарий ИИ