Otimização de Modelos - Glossário IA

📖

termos

Destilação de Modelo

Método de compressão onde um modelo grande e complexo (o professor) treina um modelo menor e mais rápido (o aluno) para reproduzir suas saídas, incluindo as probabilidades suaves, a fim de transferir seu conhecimento e alcançar desempenhos semelhantes com complexidade reduzida.

📖

termos

Otimização de Hiperparâmetros

Processo sistemático de busca pela melhor combinação de hiperparâmetros (ex: taxa de aprendizado, tamanho do lote) para um modelo, frequentemente através de métodos como busca em grade, busca aleatória ou otimização bayesiana, a fim de maximizar seu desempenho em um dado conjunto de dados.

📖

termos

Ajuste Fino (Fine-Tuning)

Técnica de adaptação de um modelo pré-treinado em grandes dados para uma tarefa específica, continuando o treinamento em um conjunto de dados menor e direcionado, permitindo obter alto desempenho com menos dados e tempo de computação.

📖

termos

Otimização de Inferências

Conjunto de técnicas que visam reduzir a latência e o custo computacional da fase de predição de um modelo em produção, incluindo quantização, compilação para aceleradores de hardware específicos (TPU, GPU) e otimização do grafo de computação.

📖

termos

Compilação de Modelo

Processo de transformação do grafo de computação de um modelo, originado de um framework como TensorFlow ou PyTorch, em um formato executável altamente otimizado para um hardware alvo específico (CPU, GPU, TPU), aplicando fusões de operações e outras otimizações de baixo nível.

📖

termos

Fusão de Operações (Operator Fusion)

Técnica de compilação que combina várias operações elementares do grafo de computação (ex: uma convolução seguida de uma adição de viés e uma ativação) em uma única operação kernel, reduzindo assim a sobrecarga de memória e os acessos à memória para acelerar a execução.

📖

termos

ONNX (Open Neural Network Exchange)

Formato de representação de modelo aberto e padronizado que permite a interoperabilidade entre diferentes frameworks de IA (PyTorch, TensorFlow, etc.) e os runtimes de inferência, facilitando assim a implantação e otimização em diversas plataformas de hardware.

📖

termos

Treinamento Esparso

Paradigma de treinamento onde apenas uma fração dos pesos do modelo é atualizada a cada iteração, o que permite manter uma estrutura esparsa enquanto se aprende, reduzindo assim as necessidades de cálculo e memória desde a fase de treinamento.

📖

termos

Busca de Arquitetura (NAS)

Processo de automação do design de arquiteturas de modelos ótimas para uma dada tarefa, utilizando algoritmos de busca (ex: otimização por reforço, algoritmos evolutivos) para explorar o espaço de arquiteturas possíveis e encontrar um compromisso desempenho-complexidade.

📖

termos

Profiling de Modelo

Análise detalhada do desempenho de um modelo durante o treinamento ou inferência, medindo o tempo de execução, o uso de memória e os gargalos em cada operação, a fim de identificar os alvos prioritários para otimização.

📖

termos

Batch Normalization Folding

Otimização aplicada após o treinamento que integra os parâmetros da camada de normalização em lote (média e variância) nos pesos e vieses da camada convolucional ou linear anterior, eliminando assim a necessidade de calcular a normalização na inferência e reduzindo a latência.

📖

termos

Grafos de Computação Dinâmicos

Abordagem onde o grafo de computação é construído dinamicamente a cada execução, permitindo estruturas de modelos condicionais (ex: early exit, redes recursivas) que podem se adaptar em função da entrada para economizar recursos computacionais em exemplos 'fáceis'.

Glossário IA

Destilação de Modelo

Otimização de Hiperparâmetros

Ajuste Fino (Fine-Tuning)

Otimização de Inferências

Compilação de Modelo

Fusão de Operações (Operator Fusion)

ONNX (Open Neural Network Exchange)

Treinamento Esparso

Busca de Arquitetura (NAS)

Profiling de Modelo

Batch Normalization Folding

Grafos de Computação Dinâmicos

Nenhum resultado encontrado