🏠 Hem
Benchmarkar
📊 Alla benchmarkar 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List-applikationer 🎨 Kreativa fria sidor 🎯 FSACB - Ultimata uppvisningen 🌍 Översättningsbenchmark
Modeller
🏆 Topp 10 modeller 🆓 Gratis modeller 📋 Alla modeller ⚙️ Kilo Code
Resurser
💬 Promptbibliotek 📖 AI-ordlista 🔗 Användbara länkar

AI-ordlista

Den kompletta ordlistan över AI

162
kategorier
2 032
underkategorier
23 060
termer
📖
termer

Auto-Attention Multi-Tête

Mécanisme où le modèle calcule plusieurs fois l'attention en parallèle avec différentes projections linéaires des requêtes, clés et valeurs, permettant de capturer des dépendances variées à différentes positions de la séquence.

📖
termer

Requête (Query)

Vecteur représentant l'élément actuel pour lequel on cherche à calculer l'attention, utilisé pour interagir avec les clés afin de déterminer l'importance de chaque valeur dans la séquence.

📖
termer

Clé (Key)

Vecteur associé à chaque élément de la séquence, utilisé pour être comparé à la requête afin de calculer le score d'attention et de déterminer la pertinence de chaque élément.

📖
termer

Valeur (Value)

Vecteur contenant l'information réelle de chaque élément de la séquence, pondéré par les poids d'attention pour produire la sortie du mécanisme d'attention.

📖
termer

Projection Linéaire

Opération de multiplication matricielle appliquée aux requêtes, clés et valeurs dans chaque tête d'attention pour les projeter dans des sous-espaces de dimension inférieure, permettant des représentations diversifiées.

📖
termer

Dimension du Modèle (d_model)

Taille de l'espace d'embedding utilisé pour les représentations des requêtes, clés et valeurs après la concaténation des têtes, paramètre clé de l'architecture Transformer.

📖
termer

Dimension de la Tête (d_k)

Dimension réduite à laquelle les requêtes et les clés sont projetées dans chaque tête d'attention, calculée comme la dimension du modèle divisée par le nombre de têtes.

📖
termer

Dimension de la Valeur (d_v)

Dimension à laquelle les vecteurs de valeur sont projetés dans chaque tête d'attention, souvent identique à la dimension de la tête (d_k) pour simplifier l'architecture.

📖
termer

Softmax sur les Clés

Application de la fonction softmax aux scores d'attention (produits scalaires requête-clé) pour obtenir une distribution de probabilité normalisée servant de poids d'attention.

📖
termer

Mécanisme d'Attention Parallèle

Implémentation où toutes les têtes d'attention sont calculées simultanément en utilisant des opérations matricielles groupées, optimisant l'efficacité computationnelle sur les GPU.

📖
termer

Sous-Espace de Représentation

Espace vectoriel de dimension inférieure dans lequel chaque tête d'attention projette les données, permettant de capturer différents types de relations et de motifs dans les données.

📖
termer

Poids d'Attention (Attention Weights)

Coefficients normalisés issus de la fonction softmax qui quantifient l'importance de chaque valeur pour la construction de la sortie de l'élément courant.

📖
termer

Dépendance à Longue Portée

Capacité du mécanisme d'auto-attention à modéliser directement les relations entre des tokens éloignés dans la séquence, surmontant une limitation des réseaux récurrents.

🔍

Inga resultat hittades