Оптимизация тензорных ядер
Warp Matrix Multiply-Accumulate (WMMA)
API CUDA, позволяющая варпам из 32 потоков эффективно выполнять операции матричного умножения-накопления непосредственно на тензорных ядрах с доступом к фрагментированным регистрам.
← Назад