Glossário IA
O dicionário completo da Inteligência Artificial
Rede de Gating (Gating Network)
Sub-rede neural dentro de uma arquitetura MoE responsável por calcular os pesos de ativação para cada especialista, geralmente usando uma função softmax para gerar uma distribuição de probabilidade sobre os especialistas.
Especialista (Expert)
Submodelo individual dentro de uma arquitetura MoE, tipicamente uma rede neural, treinado para se especializar em um subespaço particular da distribuição dos dados de entrada.
Gating Top-k (Top-k Gating)
Estratégia de gating onde apenas os k especialistas com os pesos de ativação mais altos são ativados para uma dada entrada, reduzindo assim o custo computacional enquanto mantém o desempenho do modelo.
Mecanismo de Roteamento (Routing Mechanism)
Processo algorítmico que determina como os tokens ou exemplos de entrada são atribuídos aos diferentes especialistas em um modelo MoE, influenciando diretamente a eficiência e o equilíbrio da carga.
Perda Auxiliar (Auxiliary Loss)
Termo de regularização adicionado à função de perda global de um modelo MoE para encorajar uma distribuição equilibrada do tráfego entre os especialistas, evitando assim que um pequeno subconjunto de especialistas domine.
Supercapacidade (Overcapacity)
Fenômeno em modelos MoE onde a capacidade total dos especialistas ativados excede a de um modelo denso padrão, permitindo uma escalabilidade eficiente do número de parâmetros sem aumentar proporcionalmente o custo de cálculo.
Mistura de Profundidades (Mixture-of-Depths)
Variante da arquitetura MoE onde o roteamento ocorre não entre especialistas distintos, mas entre diferentes profundidades de uma mesma rede de transformadores, ativando seletivamente camadas.
MoE Esparsos (Sparse MoE)
Implementação de Mixture of Experts onde apenas uma fração dos especialistas é ativada para cada token, o que permite aumentar massivamente o número de parâmetros do modelo mantendo o custo de inferência constante por token.
MoE Densos (Dense MoE)
Variante da arquitetura MoE onde todos os especialistas contribuem para a saída final, ponderados pela rede de gating, ao contrário das versões esparsas que ativam apenas um subconjunto.
Balanceamento de Carga (Load Balancing)
Questão crítica no treinamento de modelos MoE, visando garantir que cada especialista receba uma quantidade aproximadamente igual de dados de treinamento para evitar subutilização ou superespecialização.
Mistura de Adaptadores (Mixture of Adapters)
Aplicação do princípio MoE a adaptadores, pequenos módulos paramétricos inseridos em um modelo base pré-treinado, onde uma rede de gating seleciona e combina os adaptadores mais relevantes.
Computação Condicional (Conditional Computation)
Princípio fundamental dos modelos MoE, segundo o qual os cálculos (a ativação dos especialistas) são condicionados pela entrada, permitindo uma utilização dinâmica e eficiente dos recursos computacionais.
Ruído de Gating (Gating Noise)
Técnica de regularização que consiste em adicionar um ruído aleatório (por exemplo, ruído gaussiano) aos logits da rede de gating antes da aplicação da função softmax para encorajar a exploração e melhorar a robustez do roteamento.
Mistura de Softmaxes (Mixture of Softmaxes)
Especialização do MoE onde os especialistas são camadas de softmax distintas, utilizada para modelar distribuições multimodais complexas, notadamente no processamento de linguagem natural.
Custo de Roteamento (Routing Cost)
Sobrecarga computacional associada à avaliação da rede de gating e ao encaminhamento dos dados para os especialistas selecionados, um fator chave no design de modelos MoE eficazes.
Mistura de Cabeças (Mixture of Heads)
Aplicação do paradigma MoE ao mecanismo de atenção multi-cabeças dos transformadores, onde uma rede de gating seleciona um subconjunto de cabeças de atenção para ativar para uma dada entrada.