Otimização de Modelos
Otimização de Inferências
Conjunto de técnicas que visam reduzir a latência e o custo computacional da fase de predição de um modelo em produção, incluindo quantização, compilação para aceleradores de hardware específicos (TPU, GPU) e otimização do grafo de computação.
← Voltar