Inferência em Tempo Real
Decodificação Especulativa
Técnica de aceleração onde um modelo pequeno e mais rápido prevê vários tokens antecipadamente, e então um modelo grande os valida em paralelo, reduzindo o número de etapas de geração.
← Voltar