Glossário IA
O dicionário completo da Inteligência Artificial
Transformer Pós-LN
Arquitetura original de transformador onde a normalização de camada é aplicada após as camadas de atenção e feed-forward, exigindo um ajuste mais preciso da taxa de aprendizado.
Gamma e Beta
Parâmetros treináveis da normalização de camada que permitem, respectivamente, escalar (scale) e deslocar (shift) os valores normalizados para preservar o poder de representação da rede.
Centralização em Zero
Processo de subtração da média das ativações na normalização de camada para centralizar os dados em torno de zero, facilitando a otimização dos gradientes.
Variância Unitária
Padronização das ativações para ter uma variância unitária na normalização de camada, garantindo estabilidade numérica e gradientes constantes através das camadas.
Estabilidade do Gradiente
Propriedade da normalização de camada que mantém gradientes estáveis durante a retropropagação, evitando problemas de gradiente explosivo ou evanescente em transformadores profundos.
Parâmetro Epsilon
Pequena constante adicionada ao denominador na normalização de camada para evitar a divisão por zero e garantir a estabilidade numérica ao calcular a variância normalizada.
Distribuição de Ativação
Distribuição dos valores de ativação em uma camada que a normalização de camada mantém constante, facilitando a convergência e a otimização das redes de transformadores.
Invariância de Escala
Propriedade da normalização de camada que torna o modelo insensível a mudanças de escala das entradas, melhorando a robustez do modelo diante das variações de dados.
Velocidade de Treinamento
Aceleração significativa do treinamento de transformadores através da normalização de camadas, permitindo taxas de aprendizado mais altas e uma convergência mais rápida.
Normalização de Estado Oculto
Aplicação da normalização de camadas aos estados ocultos dos transformadores para manter ativações estáveis através das diferentes camadas de codificação e decodificação.