Inferencia en Tiempo Real
Decodificación especulativa
Técnica de aceleración donde un modelo pequeño más rápido predice varios tokens por adelantado, y luego un modelo grande los valida en paralelo, reduciendo el número de pasos de generación.
← Volver