人工知能の完全辞典
複数の注意機能を並列に実行し、トークン間の意味的関係の様々な側面を捉える注意メカニズム。モデルが入力シーケンスの異なる位置に同時に集中できるようにします。
すべての注意ヘッドの出力を統一されたマトリックスに結合する最終線形層。注意ヘッドの連結を、後続の層と互換性のある次元に変換します。