人工智能完整詞典
transformer内部表示向量的维度,是影响模型捕获复杂特征能力的关键参数,通常为注意力头数的倍数。
定义多头注意力机制中平行头数的参数,允许模型同时关注不同的子空间表示以获得更丰富的理解。