Optimización de Modelos
Optimización de Inferencias
Conjunto de técnicas destinadas a reducir la latencia y el coste computacional de la fase de predicción de un modelo en producción, incluyendo la cuantificación, la compilación para aceleradores de hardware específicos (TPU, GPU) y la optimización del grafo de cómputo.
← Volver