Mistura de Especialistas

📖

termos

Rede de Gating (Gating Network)

Sub-rede neural dentro de uma arquitetura MoE responsável por calcular os pesos de ativação para cada especialista, geralmente usando uma função softmax para gerar uma distribuição de probabilidade sobre os especialistas.

📖

termos

Especialista (Expert)

Submodelo individual dentro de uma arquitetura MoE, tipicamente uma rede neural, treinado para se especializar em um subespaço particular da distribuição dos dados de entrada.

📖

termos

Gating Top-k (Top-k Gating)

Estratégia de gating onde apenas os k especialistas com os pesos de ativação mais altos são ativados para uma dada entrada, reduzindo assim o custo computacional enquanto mantém o desempenho do modelo.

📖

termos

Mecanismo de Roteamento (Routing Mechanism)

Processo algorítmico que determina como os tokens ou exemplos de entrada são atribuídos aos diferentes especialistas em um modelo MoE, influenciando diretamente a eficiência e o equilíbrio da carga.

📖

termos

Perda Auxiliar (Auxiliary Loss)

Termo de regularização adicionado à função de perda global de um modelo MoE para encorajar uma distribuição equilibrada do tráfego entre os especialistas, evitando assim que um pequeno subconjunto de especialistas domine.

📖

termos

Supercapacidade (Overcapacity)

Fenômeno em modelos MoE onde a capacidade total dos especialistas ativados excede a de um modelo denso padrão, permitindo uma escalabilidade eficiente do número de parâmetros sem aumentar proporcionalmente o custo de cálculo.

📖

termos

Mistura de Profundidades (Mixture-of-Depths)

Variante da arquitetura MoE onde o roteamento ocorre não entre especialistas distintos, mas entre diferentes profundidades de uma mesma rede de transformadores, ativando seletivamente camadas.

📖

termos

MoE Esparsos (Sparse MoE)

Implementação de Mixture of Experts onde apenas uma fração dos especialistas é ativada para cada token, o que permite aumentar massivamente o número de parâmetros do modelo mantendo o custo de inferência constante por token.

📖

termos

MoE Densos (Dense MoE)

Variante da arquitetura MoE onde todos os especialistas contribuem para a saída final, ponderados pela rede de gating, ao contrário das versões esparsas que ativam apenas um subconjunto.

📖

termos

Balanceamento de Carga (Load Balancing)

Questão crítica no treinamento de modelos MoE, visando garantir que cada especialista receba uma quantidade aproximadamente igual de dados de treinamento para evitar subutilização ou superespecialização.

📖

termos

Mistura de Adaptadores (Mixture of Adapters)

Aplicação do princípio MoE a adaptadores, pequenos módulos paramétricos inseridos em um modelo base pré-treinado, onde uma rede de gating seleciona e combina os adaptadores mais relevantes.

📖

termos

Computação Condicional (Conditional Computation)

Princípio fundamental dos modelos MoE, segundo o qual os cálculos (a ativação dos especialistas) são condicionados pela entrada, permitindo uma utilização dinâmica e eficiente dos recursos computacionais.

📖

termos

Ruído de Gating (Gating Noise)

Técnica de regularização que consiste em adicionar um ruído aleatório (por exemplo, ruído gaussiano) aos logits da rede de gating antes da aplicação da função softmax para encorajar a exploração e melhorar a robustez do roteamento.

📖

termos

Mistura de Softmaxes (Mixture of Softmaxes)

Especialização do MoE onde os especialistas são camadas de softmax distintas, utilizada para modelar distribuições multimodais complexas, notadamente no processamento de linguagem natural.

📖

termos

Custo de Roteamento (Routing Cost)

Sobrecarga computacional associada à avaliação da rede de gating e ao encaminhamento dos dados para os especialistas selecionados, um fator chave no design de modelos MoE eficazes.

📖

termos

Mistura de Cabeças (Mixture of Heads)

Aplicação do paradigma MoE ao mecanismo de atenção multi-cabeças dos transformadores, onde uma rede de gating seleciona um subconjunto de cabeças de atenção para ativar para uma dada entrada.

Glossário IA

Rede de Gating (Gating Network)

Especialista (Expert)

Gating Top-k (Top-k Gating)

Mecanismo de Roteamento (Routing Mechanism)

Perda Auxiliar (Auxiliary Loss)

Supercapacidade (Overcapacity)

Mistura de Profundidades (Mixture-of-Depths)

MoE Esparsos (Sparse MoE)

MoE Densos (Dense MoE)

Balanceamento de Carga (Load Balancing)

Mistura de Adaptadores (Mixture of Adapters)

Computação Condicional (Conditional Computation)

Ruído de Gating (Gating Noise)

Mistura de Softmaxes (Mixture of Softmaxes)

Custo de Roteamento (Routing Cost)

Mistura de Cabeças (Mixture of Heads)

Nenhum resultado encontrado