Otimização de Tensor Cores
Quantização INT8 para Inferência
Conversão dos pesos e ativações de redes neurais para inteiros de 8 bits, permitindo até 32x de aceleração nos Tensor Cores com degradação controlada da precisão.
← Voltar