人工知能の完全辞典
デコーダーにおいて、位置 i に対する予測が位置 1 から i までのみに依存することを保証するために、すべての未来の位置をマスクする手法です。これは、生成の自己回帰的な性質を尊重します。
デコーダーの表現を語彙空間へ射影する最終的な線形層であり、その後にソフトマックスを適用して、各出力位置において可能なトークン上の確率分布を生成します。