LightGBM - Глоссарий ИИ

📖

термины

Листовая стратегия роста

Стратегия разделения деревьев, которая выбирает лист с наибольшим снижением потерь для разделения, в отличие от послойного роста, что позволяет достичь более быстрой сходимости с меньшей глубиной.

📖

термины

Биннинг признаков

Техника дискретизации непрерывных признаков в дискретные интервалы (бины) для ускорения вычисления точек разделения и уменьшения объема памяти, ценой небольшой потери точности.

📖

термины

Градиентная односторонняя выборка (GOSS)

Инновационный метод выборки в LightGBM, который сохраняет все экземпляры с большими градиентами и выполняет случайную выборку среди экземпляров с малыми градиентами, ускоряя обучение без значительной потери точности.

📖

термины

Эксклюзивное объединение признаков (EFB)

Алгоритм снижения размерности, который идентифицирует и объединяет взаимно исключающие признаки (редко ненулевые одновременно) в один составной признак, уменьшая таким образом количество признаков.

📖

термины

Гистограмма градиентов

Структура данных, используемая LightGBM для хранения градиентов и гессианов в бинах, позволяющая быстро вычислять статистики для каждой потенциальной точки разделения при построении деревьев.

📖

термины

Количество листьев

Основной параметр LightGBM, контролирующий максимальное количество листьев в каждом дереве, непосредственно влияющий на сложность модели и компромисс смещение-дисперсия, более важный чем `max_depth` для листового роста.

📖

термины

L1 и L2 регуляризация

Параметры регуляризации (`lambda_l1`, `lambda_l2`), применяемые к весам листьев для контроля сложности модели и предотвращения переобучения путем штрафования соответственно высоких весов и величины весов.

📖

термины

Минимум данных в листе

Минимальное количество образцов, требуемое в листе (или минимальный общий вес), ключевой параметр для избежания создания слишком специфичных листьев и борьбы с переобучением в моделях LightGBM.

📖

термины

Обработка категориальных признаков в CatBoost

Способность LightGBM нативно обрабатывать категориальные признаки с использованием специального преобразования, которое отображает их в целые числа, избегая ручного one-hot кодирования и повышая эффективность.

📖

термины

Переобучение при leaf-wise росте

Специфический риск при leaf-wise росте, когда модель может переобучиться, создавая очень глубокие и специализированные листья, что требует усиленной регуляризации (например, `num_leaves`, `min_data_in_leaf`) для контроля.

📖

термины

DART (Dropouts meet Multiple Additive Regression Trees)

Вариант бустинга, реализованный в LightGBM, который применяет технику dropout к предыдущим деревьям при добавлении нового дерева, улучшая регуляризацию и производительность на некоторых наборах данных.

Глоссарий ИИ

Листовая стратегия роста

Биннинг признаков

Градиентная односторонняя выборка (GOSS)

Эксклюзивное объединение признаков (EFB)

Гистограмма градиентов

Количество листьев

L1 и L2 регуляризация

Минимум данных в листе

Обработка категориальных признаков в CatBoost

Переобучение при leaf-wise росте

DART (Dropouts meet Multiple Additive Regression Trees)

Результаты не найдены