AutoML Embarcado e Edge - Glossário IA

📖

termos

AutoML Embarcado

Subdomínio do AutoML especializado na geração automática de modelos otimizados para as restrições específicas dos dispositivos embarcados, incluindo memória limitada, baixa capacidade de processamento e restrições energéticas.

📖

termos

Quantização de modelo

Técnica de otimização que reduz a precisão numérica dos pesos e ativações de uma rede neural (tipicamente de 32-bit para 8-bit ou menos) para diminuir o tamanho do modelo e acelerar a inferência em hardware restrito.

📖

termos

Poda neuronal

Processo de eliminação seletiva de pesos ou neurônios redundantes em uma rede neural para reduzir sua complexidade computacional e seu tamanho de memória, preservando sua precisão.

📖

termos

Destilação de conhecimento

Método de transferência de aprendizado onde um grande modelo professor treina um modelo estudante mais compacto, permitindo conservar o desempenho do grande modelo em uma arquitetura adequada para dispositivos Edge.

📖

termos

Otimização da inferência

Conjunto de técnicas que visam reduzir o tempo e os recursos necessários para a execução de um modelo treinado, incluindo a fusão de operações, alocação eficiente de memória e exploração do paralelismo de hardware.

📖

termos

NAS para Edge

Busca de arquitetura neural com restrições que otimiza automaticamente as estruturas das redes considerando especificamente as limitações de hardware dos dispositivos Edge, como a latência alvo e o consumo de energia.

📖

termos

Compilador de modelo

Ferramenta que transforma os grafos de computação de IA em código de máquina otimizado para arquiteturas de destino específicas, integrando otimizações como a quantização e a fusão de operações.

📖

termos

TensorRT

SDK de otimização e runtime da NVIDIA para a implantação de modelos de IA em produção, utilizando a quantização, a fusão de camadas e a otimização do kernel para maximizar o desempenho em GPUs NVIDIA.

📖

termos

TinyML

Domínio de machine learning focado na execução de modelos de IA em microcontroladores e dispositivos de consumo ultra-baixo, tipicamente com menos de 1MB de memória e operando a menos de 1mW.

📖

termos

Edge TPU

Acelerador de hardware ASIC desenvolvido pelo Google especificamente para inferência de IA na borda, otimizado para executar modelos TensorFlow Lite quantizados com alta eficiência energética.

📖

termos

Optimização de memória

Técnicas de redução da pegada de memória dos modelos incluindo compartilhamento de pesos, compressão e alocação dinâmica para se adaptar às restrições dos dispositivos embarcados.

📖

termos

Latência de inferência

Tempo decorrido entre a entrada de um dado em um modelo e a obtenção de sua previsão, parâmetro crítico nas aplicações Edge em tempo real onde os valores típicos visados são inferiores a 10ms.

📖

termos

Modèle allégé

Arquitetura de rede neural projetada especificamente para minimizar parâmetros e operações computacionais, como MobileNet ou EfficientNet, otimizada para implantações em dispositivos móveis e Edge.

📖

termos

Déploiement distribué

Estratégia de distribuição de cargas de trabalho de IA entre múltiplos dispositivos Edge para otimizar recursos globais e melhorar a escalabilidade de aplicações de IA distribuídas.

📖

termos

Optimização energética

Processo de minimização do consumo elétrico dos modelos de IA em dispositivos Edge, crucial para aplicações alimentadas por bateria e implantações em grande escala.

📖

termos

Edge AI

Paradigma de processamento de inteligência artificial diretamente nos dispositivos de borda, eliminando a necessidade de comunicação com a nuvem para tarefas de inferência críticas.

📖

termos

Microcontrolador IA

Sistema em chip de consumo ultrabaixo integrando aceleradores de hardware dedicados à inferência de IA, permitindo a execução de modelos TinyML com consumo de alguns microwatts.

📖

termos

Otimização aware hardware

Abordagem de AutoML que integra as características específicas do hardware alvo no processo de design automático de modelos, garantindo compatibilidade e desempenho ótimos.

📖

termos

Fusão de operações

Técnica de compilação que combina várias camadas ou operações adjacentes em uma única operação de kernel, reduzindo a sobrecarga de memória e melhorando a eficiência computacional na Edge.

Glossário IA