Оптимизация на основе импульса
AdamW
Вариант Adam, который отделяет затухание весов (weight decay) от адаптивного обновления, применяя затухание непосредственно к весам, а не к градиентам.
← Назад