Otimização de Transformer
Model Parallelism
Estratégia de distribuição onde diferentes componentes de um modelo são colocados em diferentes dispositivos computacionais para gerenciar modelos que excedem a memória de um único GPU.
← Voltar