Вывод в реальном времени
Спекулятивное декодирование
Техника ускорения, при которой небольшая более быстрая модель предсказывает несколько токенов заранее, а затем большая модель проверяет их параллельно, сокращая количество шагов генерации.
← Назад