AdamW
Regularização L2 desacoplada
Separação da decadência dos pesos da atualização do gradiente para aplicar a regularização independentemente da etapa de otimização.
← VoltarSeparação da decadência dos pesos da atualização do gradiente para aplicar a regularização independentemente da etapa de otimização.
← Voltar