Глоссарий ИИ
Полный словарь искусственного интеллекта
Операции FP16
Вычисления с плавающей запятой половинной точности (16 бит), обеспечивающие до 8-кратного увеличения производительности по сравнению с FP32 на тензорных ядрах, со значительным сокращением пропускной способности памяти и энергопотребления.
TensorFloat-32 (TF32)
Гибридный числовой формат NVIDIA, использующий 8 бит экспоненты (как в FP32) и 10 бит мантиссы (как в FP16), обеспечивающий оптимальный компромисс между динамическим диапазоном и точностью для тензорных ядер Ampere.
Warp Matrix Multiply-Accumulate (WMMA)
API CUDA, позволяющая варпам из 32 потоков эффективно выполнять операции матричного умножения-накопления непосредственно на тензорных ядрах с доступом к фрагментированным регистрам.
Ядра CUDA для тензорных ядер
Программы GPU, специально оптимизированные для использования инструкций тензорных ядер, использующие примитивы WMMA или библиотеки высокого уровня для максимальной матричной производительности.
Фрагментация матриц
Техника разбиения матриц на более мелкие фрагменты, распределенные между потоками варпа для параллельного выполнения на тензорных ядрах, оптимизирующая использование вычислительных ресурсов.
Использование тензорных ядер
Метрика, измеряющая процент циклов, в течение которых тензорные ядра выполняют полезные вычисления, критически важная для оценки эффективности оптимизаций и выявления узких мест.
Квантование INT8 для вывода
Преобразование весов и активаций нейронных сетей в 8-битные целые числа, позволяющее достичь до 32-кратного ускорения на тензорных ядрах с контролируемой потерей точности.
Библиотека CublasLt для тензорных ядер
Расширение библиотеки CUBLAS, оптимизированное для тензорных ядер, предлагающее высокопроизводительные процедуры GEMM (General Matrix Multiply) с нативной поддержкой форматов смешанной точности.
Shared Memory Tiling
Stratégie d'organisation des données dans la mémoire partagée GPU en tuiles optimales pour l'accès aux Tensor Cores, minimisant les conflits de banque et maximisant la bande passante.
Warp-level Matrix Scheduling
Ordonnancement des opérations matricielles au niveau des warps pour maximiser l'utilisation des pipelines Tensor Core, tenant compte des latences et des dépendances de données.
Tensor Core Register Pressure
Contrainte liée au nombre limité de registres par SM, affectant la capacité à paralléliser les opérations Tensor Core et nécessitant un équilibre entre occupation et utilisation efficace des unités.
Deep Learning Benchmarks
Suites de tests comme MLPerf évaluant les performances des optimisations Tensor Core sur des charges de travail réelles d'entraînement et d'inférence de réseaux de neurones.
Automatic Mixed Precision (AMP)
Technique automatique de sélection de précision opératoire qui identifie les opérations Tensor Core éligibles et maintient des copies FP32 pour la stabilité numérique.
Tensor Core Memory Coalescing
Optimisation des accès mémoire pour s'aligner sur les patterns d'accès des Tensor Cores, regroupant les transactions en accès contigus pour maximiser le débit.
Sparse Matrix Support
Capacité des Tensor Cores Ampere à traiter efficacement des matrices structurées creuses, offrant jusqu'à 2x d'accélération pour les réseaux de neurones avec sparsité.