人工知能の完全辞典
Transformerの内部表現ベクトルの次元数。モデルが複雑な特徴を捉える能力に影響を与える重要なパラメータで、通常はアテンションヘッド数の倍数になります。
マルチヘッド注意機構における並列ヘッド数を定義するパラメータ。モデルが同時に異なる部分空間の表現に集中し、より豊かな理解を可能にします。