🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Auto-Attention Multi-Tête

Mécanisme où le modèle calcule plusieurs fois l'attention en parallèle avec différentes projections linéaires des requêtes, clés et valeurs, permettant de capturer des dépendances variées à différentes positions de la séquence.

📖
个术语

Requête (Query)

Vecteur représentant l'élément actuel pour lequel on cherche à calculer l'attention, utilisé pour interagir avec les clés afin de déterminer l'importance de chaque valeur dans la séquence.

📖
个术语

Clé (Key)

Vecteur associé à chaque élément de la séquence, utilisé pour être comparé à la requête afin de calculer le score d'attention et de déterminer la pertinence de chaque élément.

📖
个术语

Valeur (Value)

Vecteur contenant l'information réelle de chaque élément de la séquence, pondéré par les poids d'attention pour produire la sortie du mécanisme d'attention.

📖
个术语

Projection Linéaire

Opération de multiplication matricielle appliquée aux requêtes, clés et valeurs dans chaque tête d'attention pour les projeter dans des sous-espaces de dimension inférieure, permettant des représentations diversifiées.

📖
个术语

Dimension du Modèle (d_model)

Taille de l'espace d'embedding utilisé pour les représentations des requêtes, clés et valeurs après la concaténation des têtes, paramètre clé de l'architecture Transformer.

📖
个术语

Dimension de la Tête (d_k)

Dimension réduite à laquelle les requêtes et les clés sont projetées dans chaque tête d'attention, calculée comme la dimension du modèle divisée par le nombre de têtes.

📖
个术语

Dimension de la Valeur (d_v)

Dimension à laquelle les vecteurs de valeur sont projetés dans chaque tête d'attention, souvent identique à la dimension de la tête (d_k) pour simplifier l'architecture.

📖
个术语

Softmax sur les Clés

Application de la fonction softmax aux scores d'attention (produits scalaires requête-clé) pour obtenir une distribution de probabilité normalisée servant de poids d'attention.

📖
个术语

Mécanisme d'Attention Parallèle

Implémentation où toutes les têtes d'attention sont calculées simultanément en utilisant des opérations matricielles groupées, optimisant l'efficacité computationnelle sur les GPU.

📖
个术语

Sous-Espace de Représentation

Espace vectoriel de dimension inférieure dans lequel chaque tête d'attention projette les données, permettant de capturer différents types de relations et de motifs dans les données.

📖
个术语

Poids d'Attention (Attention Weights)

Coefficients normalisés issus de la fonction softmax qui quantifient l'importance de chaque valeur pour la construction de la sortie de l'élément courant.

📖
个术语

Dépendance à Longue Portée

Capacité du mécanisme d'auto-attention à modéliser directement les relations entre des tokens éloignés dans la séquence, surmontant une limitation des réseaux récurrents.

🔍

未找到结果