Смесь экспертов
Разреженный MoE (Sparse MoE)
Реализация Mixture of Experts, где для каждого токена активируется только часть экспертов, что позволяет значительно увеличить количество параметров модели при сохранении постоянных затрат на вывод для каждого токена.
← Назад