AI用語集
人工知能の完全辞典
マルチヘッド自己注意
モデルが異なる線形射影を用いたクエリ、キー、値に対して並列に複数回注意を計算するメカニズム。シーケンス内の様々な位置における多様な依存関係を捉えることを可能にする。
クエリ(Query)
現在の要素を表すベクトルで、どの値がシーケンス内で重要かを決定するためにキーとの相互作用を通じて注意を計算するために使用される。
キー(Key)
シーケンスの各要素に関連付けられたベクトルで、クエリと比較されることで注意スコアを計算し、各要素の関連性を決定するために使用される。
値(Value)
シーケンスの各要素の実際の情報を含むベクトルで、注意の重みによって重み付けされ、注意メカニズムの出力を生成する。
線形射影
各注意ヘッドにおいてクエリ、キー、値に適用される行列乗算操作。これらを低次元部分空間に射影することで、多様な表現を可能にする。
モデル次元(d_model)
ヘッドの連結後のクエリ、キー、値の表現に使用される埋め込み空間のサイズ。Transformerアーキテクチャの重要なパラメータ。
ヘッド次元(d_k)
各注意ヘッドにおいてクエリとキーが射影される低減次元。モデル次元をヘッド数で割った値として計算される。
値次元(d_v)
各注意ヘッドにおいて値ベクトルが射影される次元。アーキテクチャを簡素化するため、多くの場合ヘッド次元(d_k)と同じ値が使用される。
キーに対するソフトマックス
注意スコア(クエリとキーの内積)にソフトマックス関数を適用し、正規化された確率分布を得ることで、注意の重みとして機能させる。
並列注意メカニズム
すべての注意ヘッドを行列演算をグループ化して同時に計算する実装方式。GPU上での計算効率を最適化する。
表現部分空間
各注意ヘッドがデータを投影する低次元のベクトル空間。データ内の異なる種類の関係やパターンを捉えることを可能にする。
注意の重み
ソフトマックス関数から得られる正規化された係数。各値が現在の要素の出力構築においてどれだけ重要かを定量化する。
長距離依存性
自己注意メカニズムがシーケンス内で離れたトークン間の関係を直接モデル化する能力。リカレントニューラルネットワークの制限を克服する。