Gestión de la infraestructura ML
Optimización de Inferencia
Conjunto de técnicas (cuantificación, poda, destilación) destinadas a reducir la latencia y el consumo de memoria de los modelos durante la fase de inferencia en producción.
← Volver