Quantificação e Otimização
Inferência Especulativa (Speculative Inference)
Técnica de aceleração da inferência generativa onde um pequeno modelo 'rascunho' propõe rapidamente vários tokens, que são então validados em paralelo pelo grande modelo alvo, reduzindo o número total de etapas de cálculo custosas.
← Voltar