Arquitetura Transformer
Matrizes de Projeção
Matrizes de pesos treináveis Wq, Wk, Wv que transformam os embeddings de entrada em espaços de Query, Key, Value, e Wo que combina as saídas de diferentes cabeças de atenção.
← Voltar