エンコーダー-デコーダー アーキテクチャ
隠れ層のサイズ
Transformerの内部表現ベクトルの次元数。モデルが複雑な特徴を捉える能力に影響を与える重要なパラメータで、通常はアテンションヘッド数の倍数になります。
← 戻るTransformerの内部表現ベクトルの次元数。モデルが複雑な特徴を捉える能力に影響を与える重要なパラメータで、通常はアテンションヘッド数の倍数になります。
← 戻る