Glossário IA
O dicionário completo da Inteligência Artificial
Crescimento por Folha (Leaf-wise)
Estratégia de divisão de árvores que seleciona a folha com a maior redução de perda para ser dividida, ao contrário do crescimento por nível (level-wise), permitindo uma convergência mais rápida com menor profundidade.
Agrupamento de Características (Feature Binning)
Técnica de discretização de características contínuas em intervalos discretos (bins) para acelerar o cálculo dos pontos de divisão e reduzir o consumo de memória, em detrimento de uma ligeira perda de precisão.
Amostragem Unilateral Baseada em Gradiente (GOSS)
Método de amostragem inovador do LightGBM que retém todas as instâncias com grandes gradientes e realiza amostragem aleatória nas instâncias com pequenos gradientes, acelerando o treinamento sem perda significativa de precisão.
Agrupamento Exclusivo de Características (EFB)
Algoritmo de redução de dimensionalidade que identifica e agrupa características mutuamente exclusivas (raramente não-nulas simultaneamente) em uma única característica composta, reduzindo assim o número de características.
Histograma de Gradientes
Estrutura de dados utilizada pelo LightGBM para armazenar gradientes e hessianas em bins, permitindo um cálculo rápido das estatísticas para cada ponto de divisão potencial durante a construção das árvores.
Número de Folhas (Num Leaves)
Parâmetro principal do LightGBM que controla o número máximo de folhas em cada árvore, influenciando diretamente a complexidade do modelo e o trade-off viés-variância, mais importante que `max_depth` para o crescimento por folha (leaf-wise).
Regularização L1 e L2
Parâmetros de regularização (`lambda_l1`, `lambda_l2`) aplicados aos pesos das folhas para controlar a complexidade do modelo e prevenir o overfitting, penalizando respetivamente os pesos elevados e a magnitude dos pesos.
Mínimo de Dados na Folha (Min Data in Leaf)
Número mínimo de amostras exigido em uma folha (ou peso total mínimo), um parâmetro chave para evitar a criação de folhas muito específicas e combater o overfitting em modelos LightGBM.
Tratamento de Características no CatBoost
Capacidade do LightGBM de lidar nativamente com características categóricas usando uma transformação específica que as mapeia para inteiros, evitando assim a codificação one-hot manual e melhorando a eficiência.
Overfitting por Crescimento Leaf-wise
Risco específico do crescimento leaf-wise onde o modelo pode sobreajustar ao criar folhas muito profundas e especializadas, exigindo maior regularização (e.g., `num_leaves`, `min_data_in_leaf`) para controlá-lo.
DART (Dropouts meet Multiple Additive Regression Trees)
Variante de boosting implementada no LightGBM que aplica a técnica de dropout às árvores anteriores ao adicionar uma nova árvore, melhorando a regularização e o desempenho em certos conjuntos de dados.