AutoML Embarqué et Edge

📖

termes

AutoML Embarqué

Sous-domaine de l'AutoML spécialisé dans la génération automatique de modèles optimisés pour les contraintes spécifiques des dispositifs embarqués, incluant la mémoire limitée, la faible puissance de calcul et les contraintes énergétiques.

📖

termes

Quantification de modèle

Technique d'optimisation qui réduit la précision numérique des poids et activations d'un réseau neuronal (typiquement de 32-bit à 8-bit ou moins) pour diminuer la taille du modèle et accélérer l'inférence sur matériel contraint.

📖

termes

Élagage neuronal

Processus d'élimination sélective des poids ou neurones redondants dans un réseau neuronal pour réduire sa complexité computationnelle et sa taille mémoire tout en préservant sa précision.

📖

termes

Distillation de connaissances

Méthode de transfert d'apprentissage où un grand modèle enseignant entraîne un modèle étudiant plus compact, permettant de conserver les performances du grand modèle dans une architecture adaptée aux dispositifs Edge.

📖

termes

Optimisation de l'inférence

Ensemble de techniques visant à réduire le temps et les ressources nécessaires à l'exécution d'un modèle entraîné, incluant la fusion d'opérations, l'allocation mémoire efficace et l'exploitation du parallélisme matériel.

📖

termes

NAS pour Edge

Recherche d'architecture neuronale contrainte qui optimise automatiquement les structures de réseaux en considérant spécifiquement les limitations matérielles des dispositifs Edge comme la latence cible et la consommation énergétique.

📖

termes

Compilateur de modèle

Outil qui transforme les graphes de calcul d'IA en code machine optimisé pour des architectures cibles spécifiques, intégrant des optimisations comme la quantification et la fusion d'opérations.

📖

termes

TensorRT

SDK d'optimisation et de runtime de NVIDIA pour le déploiement de modèles d'IA en production, utilisant la quantification, la fusion de couches et l'optimisation du noyau pour maximiser les performances sur GPU NVIDIA.

📖

termes

TinyML

Domaine du machine learning axé sur l'exécution de modèles d'IA sur des microcontrôleurs et dispositifs ultra-basse consommation, typiquement avec moins de 1MB de mémoire et opérant à moins de 1mW.

📖

termes

Edge TPU

Accélérateur matériel ASIC développé par Google spécifiquement pour l'inférence d'IA en périphérie, optimisé pour exécuter des modèles TensorFlow Lite quantifiés avec haute efficacité énergétique.

📖

termes

Optimisation de la mémoire

Techniques de réduction de l'empreinte mémoire des modèles incluant le partage de poids, la compression et l'allocation dynamique pour s'adapter aux contraintes des dispositifs embarqués.

📖

termes

Latence d'inférence

Temps écoulé entre l'entrée d'une donnée dans un modèle et l'obtention de sa prédiction, paramètre critique dans les applications Edge temps réel où les valeurs typiques visées sont inférieures à 10ms.

📖

termes

Modèle allégé

Architecture de réseau neuronal conçue spécifiquement pour minimiser les paramètres et les opérations computationnelles, comme MobileNet ou EfficientNet, optimisée pour les déploiements sur mobile et Edge.

📖

termes

Déploiement distribué

Stratégie de répartition des charges de travail d'IA entre plusieurs dispositifs Edge pour optimiser les ressources globales et améliorer la scalabilité des applications d'IA distribuées.

📖

termes

Optimisation énergétique

Processus de minimisation de la consommation électrique des modèles d'IA sur dispositifs Edge, crucial pour les applications alimentées par batterie et les déploiements à grande échelle.

📖

termes

Edge AI

Paradigme de traitement de l'intelligence artificielle directement sur les dispositifs de périphérie, éliminant le besoin de communication avec le cloud pour les tâches d'inférence critiques.

📖

termes

Microcontrôleur IA

Système sur puce ultra-basse consommation intégrant des accélérateurs matériels dédiés à l'inférence d'IA, permettant l'exécution de modèles TinyML avec une consommation de quelques microwatts.

📖

termes

Optimisation aware hardware

Approche d'AutoML qui intègre les caractéristiques spécifiques du matériel cible dans le processus de conception automatique de modèles, garantissant une compatibilité et une performance optimales.

📖

termes

Fusion d'opérations

Technique de compilation qui combine plusieurs couches ou opérations adjacentes en une seule opération kernel, réduisant la surcharge de mémoire et améliorant l'efficacité computationnelle sur Edge.

Glossaire IA