Оптимизация тензорных ядер

📖

термины

Операции FP16

Вычисления с плавающей запятой половинной точности (16 бит), обеспечивающие до 8-кратного увеличения производительности по сравнению с FP32 на тензорных ядрах, со значительным сокращением пропускной способности памяти и энергопотребления.

📖

термины

TensorFloat-32 (TF32)

Гибридный числовой формат NVIDIA, использующий 8 бит экспоненты (как в FP32) и 10 бит мантиссы (как в FP16), обеспечивающий оптимальный компромисс между динамическим диапазоном и точностью для тензорных ядер Ampere.

📖

термины

Warp Matrix Multiply-Accumulate (WMMA)

API CUDA, позволяющая варпам из 32 потоков эффективно выполнять операции матричного умножения-накопления непосредственно на тензорных ядрах с доступом к фрагментированным регистрам.

📖

термины

Ядра CUDA для тензорных ядер

Программы GPU, специально оптимизированные для использования инструкций тензорных ядер, использующие примитивы WMMA или библиотеки высокого уровня для максимальной матричной производительности.

📖

термины

Фрагментация матриц

Техника разбиения матриц на более мелкие фрагменты, распределенные между потоками варпа для параллельного выполнения на тензорных ядрах, оптимизирующая использование вычислительных ресурсов.

📖

термины

Использование тензорных ядер

Метрика, измеряющая процент циклов, в течение которых тензорные ядра выполняют полезные вычисления, критически важная для оценки эффективности оптимизаций и выявления узких мест.

📖

термины

Квантование INT8 для вывода

Преобразование весов и активаций нейронных сетей в 8-битные целые числа, позволяющее достичь до 32-кратного ускорения на тензорных ядрах с контролируемой потерей точности.

📖

термины

Библиотека CublasLt для тензорных ядер

Расширение библиотеки CUBLAS, оптимизированное для тензорных ядер, предлагающее высокопроизводительные процедуры GEMM (General Matrix Multiply) с нативной поддержкой форматов смешанной точности.

📖

термины

Shared Memory Tiling

Stratégie d'organisation des données dans la mémoire partagée GPU en tuiles optimales pour l'accès aux Tensor Cores, minimisant les conflits de banque et maximisant la bande passante.

📖

термины

Warp-level Matrix Scheduling

Ordonnancement des opérations matricielles au niveau des warps pour maximiser l'utilisation des pipelines Tensor Core, tenant compte des latences et des dépendances de données.

📖

термины

Tensor Core Register Pressure

Contrainte liée au nombre limité de registres par SM, affectant la capacité à paralléliser les opérations Tensor Core et nécessitant un équilibre entre occupation et utilisation efficace des unités.

📖

термины

Deep Learning Benchmarks

Suites de tests comme MLPerf évaluant les performances des optimisations Tensor Core sur des charges de travail réelles d'entraînement et d'inférence de réseaux de neurones.

📖

термины

Automatic Mixed Precision (AMP)

Technique automatique de sélection de précision opératoire qui identifie les opérations Tensor Core éligibles et maintient des copies FP32 pour la stabilité numérique.

📖

термины

Tensor Core Memory Coalescing

Optimisation des accès mémoire pour s'aligner sur les patterns d'accès des Tensor Cores, regroupant les transactions en accès contigus pour maximiser le débit.

📖

термины

Sparse Matrix Support

Capacité des Tensor Cores Ampere à traiter efficacement des matrices structurées creuses, offrant jusqu'à 2x d'accélération pour les réseaux de neurones avec sparsité.

Глоссарий ИИ

Операции FP16

TensorFloat-32 (TF32)

Warp Matrix Multiply-Accumulate (WMMA)

Ядра CUDA для тензорных ядер

Фрагментация матриц

Использование тензорных ядер

Квантование INT8 для вывода

Библиотека CublasLt для тензорных ядер

Shared Memory Tiling

Warp-level Matrix Scheduling

Tensor Core Register Pressure

Deep Learning Benchmarks

Automatic Mixed Precision (AMP)

Tensor Core Memory Coalescing

Sparse Matrix Support

Результаты не найдены