Квантование и оптимизация
Спекулятивный вывод (Speculative Inference)
Техника ускорения генеративного вывода, при которой небольшая модель 'черновика' быстро предлагает несколько токенов, которые затем проверяются параллельно большой целевой моделью, что снижает общее количество дорогостоящих этапов вычислений.
← Назад