Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
AutoML Embarqué
Sous-domaine de l'AutoML spécialisé dans la génération automatique de modèles optimisés pour les contraintes spécifiques des dispositifs embarqués, incluant la mémoire limitée, la faible puissance de calcul et les contraintes énergétiques.
Quantification de modèle
Technique d'optimisation qui réduit la précision numérique des poids et activations d'un réseau neuronal (typiquement de 32-bit à 8-bit ou moins) pour diminuer la taille du modèle et accélérer l'inférence sur matériel contraint.
Élagage neuronal
Processus d'élimination sélective des poids ou neurones redondants dans un réseau neuronal pour réduire sa complexité computationnelle et sa taille mémoire tout en préservant sa précision.
Distillation de connaissances
Méthode de transfert d'apprentissage où un grand modèle enseignant entraîne un modèle étudiant plus compact, permettant de conserver les performances du grand modèle dans une architecture adaptée aux dispositifs Edge.
Optimisation de l'inférence
Ensemble de techniques visant à réduire le temps et les ressources nécessaires à l'exécution d'un modèle entraîné, incluant la fusion d'opérations, l'allocation mémoire efficace et l'exploitation du parallélisme matériel.
NAS pour Edge
Recherche d'architecture neuronale contrainte qui optimise automatiquement les structures de réseaux en considérant spécifiquement les limitations matérielles des dispositifs Edge comme la latence cible et la consommation énergétique.
Compilateur de modèle
Outil qui transforme les graphes de calcul d'IA en code machine optimisé pour des architectures cibles spécifiques, intégrant des optimisations comme la quantification et la fusion d'opérations.
TensorRT
SDK d'optimisation et de runtime de NVIDIA pour le déploiement de modèles d'IA en production, utilisant la quantification, la fusion de couches et l'optimisation du noyau pour maximiser les performances sur GPU NVIDIA.
TinyML
Domaine du machine learning axé sur l'exécution de modèles d'IA sur des microcontrôleurs et dispositifs ultra-basse consommation, typiquement avec moins de 1MB de mémoire et opérant à moins de 1mW.
Edge TPU
Accélérateur matériel ASIC développé par Google spécifiquement pour l'inférence d'IA en périphérie, optimisé pour exécuter des modèles TensorFlow Lite quantifiés avec haute efficacité énergétique.
Optimisation de la mémoire
Techniques de réduction de l'empreinte mémoire des modèles incluant le partage de poids, la compression et l'allocation dynamique pour s'adapter aux contraintes des dispositifs embarqués.
Latence d'inférence
Temps écoulé entre l'entrée d'une donnée dans un modèle et l'obtention de sa prédiction, paramètre critique dans les applications Edge temps réel où les valeurs typiques visées sont inférieures à 10ms.
Modèle allégé
Architecture de réseau neuronal conçue spécifiquement pour minimiser les paramètres et les opérations computationnelles, comme MobileNet ou EfficientNet, optimisée pour les déploiements sur mobile et Edge.
Déploiement distribué
Stratégie de répartition des charges de travail d'IA entre plusieurs dispositifs Edge pour optimiser les ressources globales et améliorer la scalabilité des applications d'IA distribuées.
Optimisation énergétique
Processus de minimisation de la consommation électrique des modèles d'IA sur dispositifs Edge, crucial pour les applications alimentées par batterie et les déploiements à grande échelle.
Edge AI
Paradigme de traitement de l'intelligence artificielle directement sur les dispositifs de périphérie, éliminant le besoin de communication avec le cloud pour les tâches d'inférence critiques.
Microcontrôleur IA
Système sur puce ultra-basse consommation intégrant des accélérateurs matériels dédiés à l'inférence d'IA, permettant l'exécution de modèles TinyML avec une consommation de quelques microwatts.
Optimisation aware hardware
Approche d'AutoML qui intègre les caractéristiques spécifiques du matériel cible dans le processus de conception automatique de modèles, garantissant une compatibilité et une performance optimales.
Fusion d'opérations
Technique de compilation qui combine plusieurs couches ou opérations adjacentes en une seule opération kernel, réduisant la surcharge de mémoire et améliorant l'efficacité computationnelle sur Edge.