Глоссарий ИИ
Полный словарь искусственного интеллекта
Distillation de Modèle
Méthode de compression où un grand modèle complexe (l'enseignant) entraîne un modèle plus petit et plus rapide (l'étudiant) à reproduire ses sorties, y compris les probabilités douces, pour transférer sa connaissance et atteindre des performances proches avec une complexité réduite.
Optimisation des Hyperparamètres
Processus systématique de recherche de la meilleure combinaison d'hyperparamètres (ex: taux d'apprentissage, taille de lot) pour un modèle, souvent via des méthodes comme la recherche par grille, la recherche aléatoire ou l'optimisation bayésienne, afin de maximiser ses performances sur un jeu de données donné.
Réglage Fin (Fine-Tuning)
Technique d'adaptation d'un modèle pré-entraîné sur de grandes données à une tâche spécifique en poursuivant l'entraînement sur un jeu de données plus petit et ciblé, permettant d'obtenir de hautes performances avec moins de données et de temps de calcul.
Optimisation des Inférences
Ensemble de techniques visant à réduire la latence et le coût computationnel de la phase de prédiction d'un modèle en production, incluant la quantification, la compilation pour des accélérateurs matériels spécifiques (TPU, GPU) et l'optimisation du graphe de calcul.
Compilation de Modèle
Processus de transformation du graphe de calcul d'un modèle, issu d'un framework comme TensorFlow ou PyTorch, en un format exécutable hautement optimisé pour un matériel cible spécifique (CPU, GPU, TPU), en appliquant des fusions d'opérations et d'autres optimisations de bas niveau.
Fusion d'Opérations (Operator Fusion)
Technique de compilation qui combine plusieurs opérations élémentaires du graphe de calcul (ex: une convolution suivie d'une addition de biais et d'une activation) en une seule opération kernel, réduisant ainsi la surcharge de mémoire et les accès mémoire pour accélérer l'exécution.
ONNX (Open Neural Network Exchange)
Format de représentation de modèle ouvert et standardisé qui permet l'interopérabilité entre différents frameworks d'IA (PyTorch, TensorFlow, etc.) et les runtimes d'inférence, facilitant ainsi le déploiement et l'optimisation sur diverses plateformes matérielles.
Sparse Training
Paradigme d'entraînement où seule une fraction des poids du modèle est mise à jour à chaque itération, ce qui permet de maintenir une structure éparse tout en apprenant, réduisant ainsi les besoins en calcul et en mémoire dès la phase d'entraînement.
Поиск архитектуры (NAS)
Процесс автоматизации проектирования оптимальных архитектур моделей для заданной задачи с использованием алгоритмов поиска (например, обучение с подкреплением, эволюционные алгоритмы) для исследования пространства возможных архитектур и поиска компромисса между производительностью и сложностью.
Профилирование модели
Детальный анализ производительности модели во время обучения или вывода, измерение времени выполнения, использования памяти и узких мест на уровне каждой операции для определения приоритетных целей оптимизации.
Сворачивание пакетной нормализации
Оптимизация, применяемая после обучения, которая интегрирует параметры слоя пакетной нормализации (среднее значение и дисперсию) в веса и смещения предыдущего сверточного или линейного слоя, устраняя необходимость вычислять нормализацию во время вывода и снижая задержку.
Динамические вычислительные графы
Подход, при котором вычислительный граф строится на лету при каждом выполнении, позволяя условные структуры моделей (например, ранний выход, рекурсивные сети), которые могут адаптироваться в зависимости от входных данных для экономии вычислительных ресурсов на 'легких' примерах.