人工知能の完全辞典
学習可能な重み行列Wq、Wk、Wvが入力埋め込みをQuery、Key、Value空間に変換し、Woが異なるアテンションヘッドの出力を組み合わせる。
層正規化をアテンションとフィードフォワードの後に適用するのではなく前に適用するアーキテクチャの変種で、深層モデルの学習安定性を向上させる。