Otimização de Transformer
Pipeline Parallelism
Forma de paralelismo de modelo onde as camadas são distribuídas por diferentes GPUs e processadas em pipeline para melhorar a utilização dos recursos.
← Voltar