Glossário IA
O dicionário completo da Inteligência Artificial
C4.5
Algoritmo de aprendizado supervisionado desenvolvido por Quinlan em 1993, uma extensão do ID3 capaz de lidar com atributos contínuos e dados ausentes, utilizando a razão de ganho como critério de divisão.
C5.0
Versão aprimorada do C4.5 desenvolvida por Quinlan, oferecendo desempenho superior, gerenciamento mais eficiente de grandes conjuntos de dados e a capacidade de gerar conjuntos de árvores (boosting).
Razão de ganho
Critério de divisão usado no C4.5 para corrigir o viés do ganho de informação em relação a atributos com muitos valores, calculado como o ganho de informação dividido pela entropia intrínseca do atributo.
Entropia intrínseca
Medida utilizada no cálculo da razão de ganho para penalizar atributos com um grande número de valores, representando a quantidade de informação potencial contida na distribuição dos valores de um atributo.
Discretização binária
Técnica utilizada pelo C4.5 para transformar atributos contínuos em atributos categóricos binários, identificando o ponto de divisão ótimo que maximiza o ganho de informação.
Gerenciamento de valores ausentes
Capacidade do C4.5 de lidar com instâncias com atributos ausentes usando métodos de ponderação probabilística ou distribuindo a instância fracionariamente de acordo com os ramos possíveis.
Poda pessimista
Método de redução da complexidade no C4.5 que elimina ramos não essenciais usando uma estimativa estatística pessimista do erro baseada na distribuição binomial.
Boosting C5.0
Técnica de aprendizado em conjunto (ensemble learning) implementada no C5.0 que combina várias árvores de decisão fracas para criar um classificador forte, melhorando significativamente a precisão da previsão.
Ponto de corte ótimo
Valor limite determinado por C4.5 para dividir um atributo contínuo em dois intervalos, selecionado para maximizar o ganho de informação da divisão resultante.
Ganho de informação normalizado
Variante do ganho de informação utilizada em certos contextos para evitar o viés, semelhante à razão de ganho, mas com uma abordagem matemática ligeiramente diferente de normalização.
Árvore de decisão C4.5
Estrutura hierárquica produzida pelo algoritmo C4.5 onde cada nó interno representa um teste sobre um atributo, cada ramificação representa um resultado de teste, e cada folha representa um rótulo de classe.
Janela deslizante C5.0
Otimização no C5.0 para processar eficientemente grandes conjuntos de dados usando uma janela de amostras que se move através do conjunto de dados completo durante a construção da árvore.
Coeficiente de confiança
Parâmetro no C4.5 (geralmente 25%) utilizado na estimativa de erro para a poda, controlando o nível de pessimismo na avaliação do desempenho das ramificações da árvore.
Regras IF-THEN C4.5
Representação alternativa das árvores de decisão gerada por C4.5 onde cada caminho da raiz a uma folha é convertido em uma regra de classificação condicional.
Complexidade computacional C4.5
Custo algorítmico do C4.5 da ordem de O(n * m * log n) onde n é o número de instâncias e m o número de atributos, otimizado por técnicas de ordenação e cálculo incremental.
Divisão multi-via
Capacidade do C4.5 de criar nós com mais de duas ramificações para atributos categóricos, ao contrário de outros algoritmos que se limitam a divisões binárias.