Transformers Eficientes
Axial Attention
Decomposição da atenção multidimensional em atenções unidimensionais aplicadas sequencialmente em cada eixo. A atenção axial reduz a complexidade de O(n²) para O(n*d) onde d é o número de dimensões.
← Voltar