🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Longformer

Architecture Transformer utilisant une combinaison d'attention locale par fenêtre glissante et d'attention globale pour traiter efficacement des séquences très longues avec complexité linéaire.

📖
termes

BigBird

Modèle implémentant l'attention sparse à travers trois motifs : attention locale, globale et aléatoire, permettant le traitement de séquences jusqu'à 4096 tokens avec préservation théorique des propriétés universelles.

📖
termes

Sliding Window Attention

Technique où chaque token n'attend qu'à un nombre fixe de voisins dans une fenêtre glissante, réduisant la complexité à O(n*w) où w est la taille de la fenêtre.

📖
termes

Dilated Sliding Window

Variante de l'attention par fenêtre glissante utilisant des sauts (dilatation) pour augmenter le champ récepteur sans augmenter la complexité computationnelle.

📖
termes

Global Attention

Mécanisme où certains tokens prédéfinis (comme tokens [CLS]) peuvent attirer l'attention de tous les autres tokens, permettant la propagation d'information à travers toute la séquence.

📖
termes

Random Attention

Approche où chaque token attire aléatoirement l'attention sur un sous-ensemble de tokens distants, préservant les connexions longue distance avec faible surcoût computationnel.

📖
termes

Pattern-based Attention

Stratégie appliquant des motifs prédéfinis d'attention sparse (comme motifs fixes ou appris) pour déterminer quelles paires requête-clé calculer.

📖
termes

Linear Complexity Attention

Classe de méthodes d'attention réduisant la complexité algorithmique de O(n²) à O(n), permettant le passage à l'échelle pour des séquences très longues.

📖
termes

Kernel-based Attention

Approche utilisant des noyaux pour approximer l'attention softmax, permettant des calculs en complexité linéaire via des techniques comme FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).

📖
termes

Low-rank Approximation

Technique approximant la matrice d'attention par une décomposition en rang réduit, réduisant significativement les besoins en mémoire et en calcul.

📖
termes

Clustering-based Attention

Méthode groupant d'abord les tokens en clusters similaires puis appliquant l'attention au niveau des clusters, réduisant le nombre de calculs requis.

📖
termes

Routing Attention

Mécanisme apprenant à router les requêtes vers les clés les plus pertinentes en utilisant des fonctions de routage basées sur le contenu, évitant les calculs inutiles.

📖
termes

Reformer

Architecture utilisant la sensibilité à la localité (LSH) pour limiter les calculs d'attention aux paires les plus similaires, avec complexité quasi-linéaire en longueur de séquence.

📖
termes

Performer

Modèle basé sur l'attention FAVOR+ approximant efficacement l'attention softmax via des caractéristiques aléatoires orthogonales positives, permettant complexité linéaire.

📖
termes

Linformer

Architecture projetant la matrice clé-valeur dans un espace de dimension inférieure, transformant la complexité de O(n²) à O(n*k) où k << n.

📖
termes

Routing Transformer

Modèle utilisant un routage basé sur k-means pour regrouper les tokens et appliquer l'attention sélectivement, optimisant les calculs pour les dépendances longue distance.

📖
termes

Sinkhorn Sorting

Algorithme utilisant l'itération de Sinkhorn pour transformer l'attention en permutation différentiable, appliqué dans les architectures d'attention sparse.

📖
termes

Efficient Attention

Paradigme englobant toutes les variantes d'attention visant à réduire la complexité computationnelle tout en préservant les capacités de modélisation des Transformers.

🔍

Aucun résultat trouvé