Стохастический градиентный спуск (SGD)
Проблема взрыва градиента
Проблема, при которой градиенты становятся чрезмерно большими во время обучения, вызывая нестабильное обновление параметров и расхождение алгоритма обучения.
← Назад