Глоссарий ИИ
Полный словарь искусственного интеллекта
Листовая стратегия роста
Стратегия разделения деревьев, которая выбирает лист с наибольшим снижением потерь для разделения, в отличие от послойного роста, что позволяет достичь более быстрой сходимости с меньшей глубиной.
Биннинг признаков
Техника дискретизации непрерывных признаков в дискретные интервалы (бины) для ускорения вычисления точек разделения и уменьшения объема памяти, ценой небольшой потери точности.
Градиентная односторонняя выборка (GOSS)
Инновационный метод выборки в LightGBM, который сохраняет все экземпляры с большими градиентами и выполняет случайную выборку среди экземпляров с малыми градиентами, ускоряя обучение без значительной потери точности.
Эксклюзивное объединение признаков (EFB)
Алгоритм снижения размерности, который идентифицирует и объединяет взаимно исключающие признаки (редко ненулевые одновременно) в один составной признак, уменьшая таким образом количество признаков.
Гистограмма градиентов
Структура данных, используемая LightGBM для хранения градиентов и гессианов в бинах, позволяющая быстро вычислять статистики для каждой потенциальной точки разделения при построении деревьев.
Количество листьев
Основной параметр LightGBM, контролирующий максимальное количество листьев в каждом дереве, непосредственно влияющий на сложность модели и компромисс смещение-дисперсия, более важный чем `max_depth` для листового роста.
L1 и L2 регуляризация
Параметры регуляризации (`lambda_l1`, `lambda_l2`), применяемые к весам листьев для контроля сложности модели и предотвращения переобучения путем штрафования соответственно высоких весов и величины весов.
Минимум данных в листе
Минимальное количество образцов, требуемое в листе (или минимальный общий вес), ключевой параметр для избежания создания слишком специфичных листьев и борьбы с переобучением в моделях LightGBM.
Обработка категориальных признаков в CatBoost
Способность LightGBM нативно обрабатывать категориальные признаки с использованием специального преобразования, которое отображает их в целые числа, избегая ручного one-hot кодирования и повышая эффективность.
Переобучение при leaf-wise росте
Специфический риск при leaf-wise росте, когда модель может переобучиться, создавая очень глубокие и специализированные листья, что требует усиленной регуляризации (например, `num_leaves`, `min_data_in_leaf`) для контроля.
DART (Dropouts meet Multiple Additive Regression Trees)
Вариант бустинга, реализованный в LightGBM, который применяет технику dropout к предыдущим деревьям при добавлении нового дерева, улучшая регуляризацию и производительность на некоторых наборах данных.