Słownik AI
Kompletny słownik sztucznej inteligencji
Distillation de Modèle
Méthode de compression où un grand modèle complexe (l'enseignant) entraîne un modèle plus petit et plus rapide (l'étudiant) à reproduire ses sorties, y compris les probabilités douces, pour transférer sa connaissance et atteindre des performances proches avec une complexité réduite.
Optimisation des Hyperparamètres
Processus systématique de recherche de la meilleure combinaison d'hyperparamètres (ex: taux d'apprentissage, taille de lot) pour un modèle, souvent via des méthodes comme la recherche par grille, la recherche aléatoire ou l'optimisation bayésienne, afin de maximiser ses performances sur un jeu de données donné.
Réglage Fin (Fine-Tuning)
Technique d'adaptation d'un modèle pré-entraîné sur de grandes données à une tâche spécifique en poursuivant l'entraînement sur un jeu de données plus petit et ciblé, permettant d'obtenir de hautes performances avec moins de données et de temps de calcul.
Optimisation des Inférences
Ensemble de techniques visant à réduire la latence et le coût computationnel de la phase de prédiction d'un modèle en production, incluant la quantification, la compilation pour des accélérateurs matériels spécifiques (TPU, GPU) et l'optimisation du graphe de calcul.
Compilation de Modèle
Processus de transformation du graphe de calcul d'un modèle, issu d'un framework comme TensorFlow ou PyTorch, en un format exécutable hautement optimisé pour un matériel cible spécifique (CPU, GPU, TPU), en appliquant des fusions d'opérations et d'autres optimisations de bas niveau.
Fusion d'Opérations (Operator Fusion)
Technique de compilation qui combine plusieurs opérations élémentaires du graphe de calcul (ex: une convolution suivie d'une addition de biais et d'une activation) en une seule opération kernel, réduisant ainsi la surcharge de mémoire et les accès mémoire pour accélérer l'exécution.
ONNX (Open Neural Network Exchange)
Format de représentation de modèle ouvert et standardisé qui permet l'interopérabilité entre différents frameworks d'IA (PyTorch, TensorFlow, etc.) et les runtimes d'inférence, facilitant ainsi le déploiement et l'optimisation sur diverses plateformes matérielles.
Sparse Training
Paradigme d'entraînement où seule une fraction des poids du modèle est mise à jour à chaque itération, ce qui permet de maintenir une structure éparse tout en apprenant, réduisant ainsi les besoins en calcul et en mémoire dès la phase d'entraînement.
Architecture Search (NAS)
Processus d'automatisation de la conception d'architectures de modèles optimales pour une tâche donnée, en utilisant des algorithmes de recherche (ex: optimisation par renforcement, algorithmes évolutifs) pour explorer l'espace des architectures possibles et trouver un compromis performance-complexité.
Profiling de Modèle
Analyse détaillée des performances d'un modèle durant l'entraînement ou l'inférence, mesurant le temps d'exécution, l'utilisation mémoire et les goulots d'étranglement au niveau de chaque opération, afin d'identifier les cibles prioritaires pour l'optimisation.
Batch Normalization Folding
Optimisation appliquée après l'entraînement qui intègre les paramètres de la couche de normalisation par lot (moyenne et variance) dans les poids et biais de la couche convolutive ou linéaire précédente, éliminant ainsi la nécessité de calculer la normalisation à l'inférence et réduisant la latence.
Dynamic Computation Graphs
Approche où le graphe de calcul est construit à la volée à chaque exécution, permettant des structures de modèles conditionnelles (ex: early exit, réseaux récursifs) qui peuvent s'adapter en fonction de l'entrée pour économiser des ressources calculatoires sur des exemples 'faciles'.