Глоссарий ИИ
Полный словарь искусственного интеллекта
Длина пути
Количество разбиений, необходимых для изоляции конкретной точки данных от корня до листа в дереве изоляции. Более короткие длины пути указывают на потенциально аномальные наблюдения.
Построение леса
Процесс создания множества независимых деревьев изоляции с использованием различных случайных подвыборок обучающих данных. Производительность увеличивается с количеством деревьев до определенного порога.
Средняя длина пути
Среднее значение длин пути точки данных по всем деревьям леса изоляции. Служит основой для расчета итогового показателя аномальности наблюдения.
Функция оценки аномалий
Математическая формула, преобразующая среднюю длину пути в нормализованную оценку с учетом размера выборки и теоретической структуры дерева. Дает вероятностную интерпретацию аномалии.
iTree
Сокращение от Isolation Tree (дерево изоляции), обозначающее отдельное дерево в лесу изоляции. Каждое iTree строится на случайной подвыборке и использует случайные разбиения для изоляции наблюдений.
Размер подвыборки
Количество наблюдений, используемых для построения каждого отдельного дерева в лесу, обычно устанавливается равным 256 по причинам статистической производительности. Влияет на баланс между вычислительной эффективностью и качеством обнаружения.
Обнаружение выбросов
Процесс выявления наблюдений, которые значительно отклоняются от ожидаемого нормального поведения в наборе данных. Isolation Forest преуспевает в этой задаче благодаря своему подходу к изоляции, основанному на структуре.
Обнаружение аномалий без учителя
Подход машинного обучения, выявляющий аномалии без необходимости наличия обучающих меток, основываясь исключительно на внутреннем распределении данных. Isolation Forest является хрестоматийным примером этого метода.
Высота дерева
Максимальная длина пути от корня до любого листа в дереве изоляции. Аномалии, как правило, изолируются в листьях, расположенных ближе к корню, при меньшей высоте дерева.
Случайное разбиение
Стратегия построения деревьев, использующая случайные разделения без специальной оптимизации, в отличие от классических деревьев решений. Эта простота делает алгоритм эффективным для быстрой изоляции аномалий.