Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
A/B Testing for Models
Technique de déploiement comparatif où deux versions d'un modèle sont testées simultanément sur des segments d'utilisateurs distincts pour évaluer leurs performances relatives en conditions réelles.
Online Inference
Mode d'inférence en temps réel où le modèle traite les prédictions individuelles à la demande avec une latence minimale, typiquement via des API REST ou gRPC.
Batch Inference
Approche d'inférence où les prédictions sont générées pour des lots de données à intervalles réguliers, optimisée pour le débit plutôt que la latence individuelle.
Serverless Inference
Architecture de déploiement où l'infrastructure de calcul est gérée automatiquement par le cloud provider, avec facturation à l'utilisation et scalabilité automatique basée sur la demande.
Edge AI Deployment
Déploiement de modèles ML sur des dispositifs périphériques (edge devices) pour exécuter l'inférence localement, réduisant la latence et la dépendance réseau tout en préservant la confidentialité des données.
Model Serving
Infrastructure et processus permettant d'exposer les modèles ML via des endpoints API pour l'inférence en production, incluant le chargement, la gestion du cycle de vie et l'optimisation.
Auto-scaling for ML
Mécanisme d'adaptation dynamique des ressources de calcul en fonction de la charge d'inférence, utilisant des métriques spécifiques comme le nombre de requêtes ou la latence.
Model Observability
Capacité à comprendre l'état interne et le comportement des modèles en production grâce à des logs, métriques et traces détaillées pour le debugging et l'optimisation.
Gradual Rollout
Stratégie de déploiement contrôlé où l'exposition du nouveau modèle augmente progressivement (10%, 25%, 50%, 100%) avec validation à chaque étape.
Model Serialization
Processus de conversion du modèle entraîné en format stockable et transportable (Pickle, ONNX, SavedModel) pour le déploiement et l'inférence en production.
Inference Pipeline
Séquence d'étapes de traitement appliquées aux données d'entrée avant et après la prédiction du modèle, incluant le preprocessing, l'inférence et le postprocessing.