Otimização de Transformer
Paralelismo de Tensores
Técnica de paralelismo que divide os tensores de peso individuais entre várias GPUs para permitir o treinamento de camadas maiores que a memória de um único dispositivo.
← Voltar