Mistura de Especialistas
Gating Top-k (Top-k Gating)
Estratégia de gating onde apenas os k especialistas com os pesos de ativação mais altos são ativados para uma dada entrada, reduzindo assim o custo computacional enquanto mantém o desempenho do modelo.
← Voltar