Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Binary Neural Networks
Réseaux de neurones dont les poids et activations sont contraints à des valeurs binaires (+1/-1), offrant une compression extrême et des gains significatifs en vitesse d'inférence.
Structured Pruning
Technique d'élagage supprimant des structures entières comme des filtres, canaux ou couches complètes, permettant des gains matériels réels contrairement au pruning non structuré.
Dynamic Computation
Stratégie adaptant la complexité computationnelle du modèle en fonction de l'entrée ou des contraintes ressources, optimisant l'utilisation énergétique et la latence sur les appareils edge.
TensorRT Optimization
Suite d'optimisations NVIDIA incluant la fusion de couches, la calibration de précision et l'auto-tuning pour maximiser les performances d'inférence sur GPUs edge.
TinyML
Domaine du machine learning visant le déploiement de modèles d'IA ultra-compacts (<1MB) sur microcontrôleurs avec des ressources extrêmement limitées (RAM <256KB).
ONNX Runtime
Moteur d'inférence cross-platform optimisant l'exécution de modèles au format ONNX sur diverses architectures matérielles incluant les dispositifs edge et IoT.
Post-training Quantization
Technique de quantification appliquée après l'entraînement complet du modèle, utilisant un petit ensemble de calibration pour déterminer les paramètres de quantification optimaux.
Sparse Neural Networks
Réseaux de neurones contenant une grande proportion de poids nuls ou quasi-nuls, permettant des optimisations computationnelles et de stockage significatives sur les plateformes edge.
Layer Fusion
Optimization combinant plusieurs couches successives en une seule opération computationnelle, réduisant la surcharge mémoire et améliorant le parallélisme sur les accélérateurs edge.