Glossário IA
O dicionário completo da Inteligência Artificial
Escalonamento da Atenção
Técnica de normalização das pontuações de atenção dividindo pela raiz quadrada da dimensionalidade para manter uma variância constante e estabilizar o treinamento de modelos Transformers.
Fator de Escalonamento Dimensional
Coeficiente √dk usado para normalizar as pontuações de atenção, onde dk representa a dimensionalidade dos vetores de consulta e chave na arquitetura Transformer.
Estabilização de Gradiente
Processo que visa manter os gradientes dentro de um intervalo numérico estável durante a retropropagação, essencial para evitar problemas de treinamento em redes profundas.
Normalização da Pontuação de Atenção
Normalização das pontuações de similaridade antes da aplicação de Softmax para controlar a distribuição de probabilidade e prevenir concentrações extremas de atenção.
Dimensionalidade Consulta-Chave
Dimensão comum dos vetores de consulta e chave na atenção multi-cabeça, cuja raiz quadrada determina o fator de escala de normalização.
Controle de Variância da Atenção
Manutenção da variância constante das pontuações de atenção através de diferentes camadas para garantir uma estabilidade numérica ótima do modelo.
Estabilidade Numérica na Atenção
Conjunto de técnicas que garantem que os cálculos de atenção permaneçam em intervalos numéricos gerenciáveis, prevenindo overflows e underflows de ponto flutuante.
Acentuação da Distribuição de Pontuações
Fenômeno onde as distribuições de atenção se tornam excessivamente concentradas sem normalização adequada, levando a um comportamento subótimo do modelo.
Escalonamento da Atenção Multi-Cabeça
Aplicação do fator de escala √dk independentemente a cada cabeça de atenção na arquitetura multi-cabeça para manter a consistência entre as representações paralelas.
Normalização da Dimensão do Embedding
Técnica de normalização baseada na dimensionalidade dos embeddings para garantir uma magnitude comparável das representações vetoriais no espaço de atenção.
Escalonamento da Temperatura da Atenção
Ajuste dinâmico do fator de escala para modular a concentração da atenção, permitindo um controle fino sobre a distribuição dos pesos de atenção.
Otimização do Fluxo de Gradiente
Otimização do percurso dos gradientes através das camadas de atenção para manter uma aprendizagem eficaz em redes profundas.
Regularização da Magnitude do Score
Controle da magnitude dos scores de atenção por normalização para prevenir instabilidades numéricas e melhorar a convergência do modelo.
Preservação da Entropia da Atenção
Manutenção de um nível de entropia apropriado nas distribuições de atenção através da normalização, evitando distribuições muito rígidas ou muito uniformes.