Глоссарий ИИ
Полный словарь искусственного интеллекта
C4.5
Алгоритм обучения с учителем, разработанный Куинланом в 1993 году, расширение ID3, способный обрабатывать непрерывные атрибуты и пропущенные данные, использующий коэффициент усиления в качестве критерия разделения.
C5.0
Усовершенствованная версия C4.5, разработанная Куинланом, предлагающая превосходную производительность, более эффективную обработку больших наборов данных и возможность генерировать ансамбли деревьев (бустинг).
Ratio de gain
Критерий разделения, используемый в C4.5 для исправления смещения информационного прироста в пользу атрибутов со многими значениями, вычисляемый как информационный прирост, делённый на внутреннюю энтропию атрибута.
Entropie intrinsèque
Мера, используемая в вычислении коэффициента усиления для штрафа атрибутов с большим количеством значений, представляющая количество потенциальной информации, содержащейся в распределении значений атрибута.
Discrétisation binaire
Техника, используемая C4.5 для преобразования непрерывных атрибутов в двоичные категориальные атрибуты путём определения оптимальной точки разделения, которая максимизирует информационный прирост.
Gestion des valeurs manquantes
Способность C4.5 обрабатывать экземпляры с отсутствующими атрибутами, используя методы вероятностного взвешивания или распределяя экземпляр дробно по возможным ветвям.
Élagage pessimiste
Метод уменьшения сложности в C4.5, который устраняет несущественные ветви, используя пессимистическую статистическую оценку ошибки, основанную на биномиальном распределении.
Boosting C5.0
Техника ансамблевого обучения, реализованная в C5.0, которая объединяет несколько слабых деревьев решений для создания сильного классификатора, значительно улучшая точность прогнозирования.
Оптимальная точка разделения
Пороговое значение, определяемое C4.5 для разделения непрерывного атрибута на два интервала, выбираемое для максимизации информационного прироста результирующего разделения.
Нормализованный информационный прирост
Вариант информационного прироста, используемый в некоторых контекстах для предотвращения смещения, аналогичный коэффициенту прироста, но с несколько другим математическим подходом к нормализации.
Дерево решений C4.5
Иерархическая структура, создаваемая алгоритмом C4.5, где каждый внутренний узел представляет тест на атрибуте, каждая ветвь представляет результат теста, а каждый лист представляет метку класса.
Скользящее окно C5.0
Оптимизация в C5.0 для эффективной обработки больших наборов данных с использованием окна выборок, которое перемещается по всему набору данных при построении дерева.
Коэффициент доверия
Параметр в C4.5 (обычно 25%), используемый при оценке ошибки для обрезки, контролирующий уровень пессимизма в оценке производительности ветвей дерева.
Правила IF-THEN C4.5
Альтернативное представление деревьев решений, генерируемое C4.5, где каждый путь от корня к листу преобразуется в условное правило классификации.
Вычислительная сложность C4.5
Алгоритмическая стоимость C4.5 порядка O(n * m * log n), где n - количество экземпляров, а m - количество атрибутов, оптимизированная техниками сортировки и инкрементального вычисления.
Многопутевое разделение
Способность C4.5 создавать узлы с более чем двумя ветвями для категориальных атрибутов, в отличие от других алгоритмов, ограниченных бинарными разделениями.