Adagrad
Плохая обусловленность
Ситуация, когда масштабы градиентов в разных направлениях значительно варьируются, проблема, которую Adagrad решает специально путем динамической адаптации скорости обучения по измерениям.
← Назад