🏠 Home
Benchmark Hub
📊 All Benchmarks 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List Applications 🎨 Creative Free Pages 🎯 FSACB - Ultimate Showcase 🌍 Translation Benchmark
Models
🏆 Top 10 Models 🆓 Free Models 📋 All Models ⚙️ Kilo Code
Resources
💬 Prompts Library 📖 AI Glossary 🔗 Useful Links
📖
Attention Linéaire et Efficace

FlashAttention

Algorithme d'attention exacte, mais plus rapide en mémoire et en temps, qui utilise des tuiles (tiling) et des recomputations pour éviter la création de la grande matrice d'attention intermédiaire en mémoire GPU.

← Back