Линейное и эффективное внимание
FlashAttention
Алгоритм точного механизма внимания, но более быстрый по памяти и времени, который использует тайлинг и перевычисления для избежания создания большой промежуточной матрицы внимания в памяти GPU.
← Назад