Gestion de l'infrastructure ML
Inference Optimization
Ensemble de techniques (quantification, pruning, distillation) visant à réduire la latence et la consommation mémoire des modèles pendant la phase d'inférence en production.
← Retour