Glossário IA
O dicionário completo da Inteligência Artificial
Destilação de Modelo
Método de compressão onde um modelo grande e complexo (o professor) treina um modelo menor e mais rápido (o aluno) para reproduzir suas saídas, incluindo as probabilidades suaves, a fim de transferir seu conhecimento e alcançar desempenhos semelhantes com complexidade reduzida.
Otimização de Hiperparâmetros
Processo sistemático de busca pela melhor combinação de hiperparâmetros (ex: taxa de aprendizado, tamanho do lote) para um modelo, frequentemente através de métodos como busca em grade, busca aleatória ou otimização bayesiana, a fim de maximizar seu desempenho em um dado conjunto de dados.
Ajuste Fino (Fine-Tuning)
Técnica de adaptação de um modelo pré-treinado em grandes dados para uma tarefa específica, continuando o treinamento em um conjunto de dados menor e direcionado, permitindo obter alto desempenho com menos dados e tempo de computação.
Otimização de Inferências
Conjunto de técnicas que visam reduzir a latência e o custo computacional da fase de predição de um modelo em produção, incluindo quantização, compilação para aceleradores de hardware específicos (TPU, GPU) e otimização do grafo de computação.
Compilação de Modelo
Processo de transformação do grafo de computação de um modelo, originado de um framework como TensorFlow ou PyTorch, em um formato executável altamente otimizado para um hardware alvo específico (CPU, GPU, TPU), aplicando fusões de operações e outras otimizações de baixo nível.
Fusão de Operações (Operator Fusion)
Técnica de compilação que combina várias operações elementares do grafo de computação (ex: uma convolução seguida de uma adição de viés e uma ativação) em uma única operação kernel, reduzindo assim a sobrecarga de memória e os acessos à memória para acelerar a execução.
ONNX (Open Neural Network Exchange)
Formato de representação de modelo aberto e padronizado que permite a interoperabilidade entre diferentes frameworks de IA (PyTorch, TensorFlow, etc.) e os runtimes de inferência, facilitando assim a implantação e otimização em diversas plataformas de hardware.
Treinamento Esparso
Paradigma de treinamento onde apenas uma fração dos pesos do modelo é atualizada a cada iteração, o que permite manter uma estrutura esparsa enquanto se aprende, reduzindo assim as necessidades de cálculo e memória desde a fase de treinamento.
Busca de Arquitetura (NAS)
Processo de automação do design de arquiteturas de modelos ótimas para uma dada tarefa, utilizando algoritmos de busca (ex: otimização por reforço, algoritmos evolutivos) para explorar o espaço de arquiteturas possíveis e encontrar um compromisso desempenho-complexidade.
Profiling de Modelo
Análise detalhada do desempenho de um modelo durante o treinamento ou inferência, medindo o tempo de execução, o uso de memória e os gargalos em cada operação, a fim de identificar os alvos prioritários para otimização.
Batch Normalization Folding
Otimização aplicada após o treinamento que integra os parâmetros da camada de normalização em lote (média e variância) nos pesos e vieses da camada convolucional ou linear anterior, eliminando assim a necessidade de calcular a normalização na inferência e reduzindo a latência.
Grafos de Computação Dinâmicos
Abordagem onde o grafo de computação é construído dinamicamente a cada execução, permitindo estruturas de modelos condicionais (ex: early exit, redes recursivas) que podem se adaptar em função da entrada para economizar recursos computacionais em exemplos 'fáceis'.