Cuantificación y Optimización
Inferencia Especulativa (Speculative Inference)
Técnica de aceleración de la inferencia generativa donde un pequeño modelo 'borrador' propone rápidamente varios tokens, que luego son validados en paralelo por el gran modelo objetivo, reduciendo el número total de pasos de cálculo costosos.
← Volver