Вычисления смешанной точности
Накопление градиентов в смешанной точности
Техника, при которой градиенты, вычисленные в FP16, накапливаются в буфере FP32 перед обновлением весов, предотвращая потерю точности при агрегации по нескольким мини-пакетам.
← Назад