人工智能完整词典
解码器中的一种技术,屏蔽所有未来位置,以确保位置i的预测仅依赖于位置1到i,遵循生成的自回归特性。
最终的线性层,将解码器的表示投影到词汇空间,然后通过softmax在每个输出位置上产生可能词元的概率分布。