Glossário IA
O dicionário completo da Inteligência Artificial
Regularização L1/L2
Mecanismos de penalidade integrados ao XGBoost para controlar a complexidade do modelo e prevenir o overfitting. A regularização L1 (Lasso) favorece a esparsidade, enquanto a L2 (Ridge) reduz a magnitude dos pesos.
Max Depth
Parâmetro que controla a profundidade máxima de cada árvore de decisão no conjunto, limitando assim a complexidade individual dos modelos fracos. Valores típicos variam entre 3 e 10 para equilibrar viés e variância.
Subsample
Fração das observações de treinamento amostradas aleatoriamente para construir cada árvore, introduzindo estocasticidade para reduzir o overfitting. Valores comuns situam-se entre 0,5 e 1,0.
Colsample_bytree
Proporção de características selecionadas aleatoriamente para cada árvore, semelhante à abordagem do Random Forest, para melhorar a robustez e reduzir a correlação entre as árvores. Permite subamostragem horizontal de atributos.
Algoritmo de Encontrar Divisões
Algoritmo otimizado para encontrar os melhores pontos de divisão, usando uma abordagem aproximada baseada em quantis ponderados para acelerar o treinamento em grandes conjuntos de dados. Reduz significativamente a complexidade computacional.
Algoritmo Otimizado para Esparsidade
Capacidade do XGBoost de lidar eficientemente com valores ausentes e matrizes esparsas sem necessidade de imputação prévia. Aprende automaticamente a direção ideal para valores ausentes nas divisões.
Processamento Paralelo
Implementação multithreaded que paraleliza a construção das árvores ao nível das características e instâncias, acelerando o treinamento. Também suporta processamento distribuído por meio de frameworks como Hadoop ou Spark.
Validação Cruzada
Funcionalidade nativa do XGBoost que permite avaliação robusta do modelo através de validação cruzada k-fold integrada com parada antecipada automática. Otimiza a seleção de hiperparâmetros e evita o overfitting.
Função Objetivo
Função matemática que combina a perda de previsão e os termos de regularização que o XGBoost otimiza durante o treinamento. Suporta múltiplos objetivos: regressão, classificação binária/multiclasse, ranqueamento.
Métricas de Avaliação
Conjunto de métricas personalizáveis para monitorar o desempenho durante o treinamento: RMSE, MAE, LogLoss, AUC, Taxa de Erro, etc. Podem diferir do objetivo principal de otimização.
DMatrix
Estrutura de dados otimizada específica do XGBoost para armazenar eficientemente conjuntos de dados na memória com suporte nativo ao formato esparsa. Acelera o acesso aos dados e reduz a utilização de memória.