人工知能の完全辞典
デコーディング層のみを使用するTransformerモデルの構造で、自己回帰的なテキスト生成に最適化されています。エンコーダー-デコーダーとは異なり、このアーキテクチャは因果関係を保つために、学習時に未来のトークンをマスキングします。