Gestão de infraestrutura ML
Inference Optimization
Conjunto de técnicas (quantização, pruning, destilação) que visam reduzir a latência e o consumo de memória dos modelos durante a fase de inferência em produção.
← Voltar