XGBoost - Glossário IA

📖

termos

Regularização L1/L2

Mecanismos de penalidade integrados ao XGBoost para controlar a complexidade do modelo e prevenir o overfitting. A regularização L1 (Lasso) favorece a esparsidade, enquanto a L2 (Ridge) reduz a magnitude dos pesos.

📖

termos

Max Depth

Parâmetro que controla a profundidade máxima de cada árvore de decisão no conjunto, limitando assim a complexidade individual dos modelos fracos. Valores típicos variam entre 3 e 10 para equilibrar viés e variância.

📖

termos

Subsample

Fração das observações de treinamento amostradas aleatoriamente para construir cada árvore, introduzindo estocasticidade para reduzir o overfitting. Valores comuns situam-se entre 0,5 e 1,0.

📖

termos

Colsample_bytree

Proporção de características selecionadas aleatoriamente para cada árvore, semelhante à abordagem do Random Forest, para melhorar a robustez e reduzir a correlação entre as árvores. Permite subamostragem horizontal de atributos.

📖

termos

Algoritmo de Encontrar Divisões

Algoritmo otimizado para encontrar os melhores pontos de divisão, usando uma abordagem aproximada baseada em quantis ponderados para acelerar o treinamento em grandes conjuntos de dados. Reduz significativamente a complexidade computacional.

📖

termos

Algoritmo Otimizado para Esparsidade

Capacidade do XGBoost de lidar eficientemente com valores ausentes e matrizes esparsas sem necessidade de imputação prévia. Aprende automaticamente a direção ideal para valores ausentes nas divisões.

📖

termos

Processamento Paralelo

Implementação multithreaded que paraleliza a construção das árvores ao nível das características e instâncias, acelerando o treinamento. Também suporta processamento distribuído por meio de frameworks como Hadoop ou Spark.

📖

termos

Validação Cruzada

Funcionalidade nativa do XGBoost que permite avaliação robusta do modelo através de validação cruzada k-fold integrada com parada antecipada automática. Otimiza a seleção de hiperparâmetros e evita o overfitting.

📖

termos

Função Objetivo

Função matemática que combina a perda de previsão e os termos de regularização que o XGBoost otimiza durante o treinamento. Suporta múltiplos objetivos: regressão, classificação binária/multiclasse, ranqueamento.

📖

termos

Métricas de Avaliação

Conjunto de métricas personalizáveis para monitorar o desempenho durante o treinamento: RMSE, MAE, LogLoss, AUC, Taxa de Erro, etc. Podem diferir do objetivo principal de otimização.

📖

termos

DMatrix

Estrutura de dados otimizada específica do XGBoost para armazenar eficientemente conjuntos de dados na memória com suporte nativo ao formato esparsa. Acelera o acesso aos dados e reduz a utilização de memória.

Glossário IA

Regularização L1/L2

Max Depth

Subsample

Colsample_bytree

Algoritmo de Encontrar Divisões

Algoritmo Otimizado para Esparsidade

Processamento Paralelo

Validação Cruzada

Função Objetivo

Métricas de Avaliação

DMatrix

Nenhum resultado encontrado