AdamW
Разделенная L2-регуляризация
Разделение уменьшения весов от обновления градиента для применения регуляризации независимо от этапа оптимизации.
← НазадРазделение уменьшения весов от обновления градиента для применения регуляризации независимо от этапа оптимизации.
← Назад