Оптимизация трансформеров
Тензорный параллелизм
Техника параллелизма, разделяющая тензоры весов между несколькими GPU для обучения слоев, которые не помещаются в память одного устройства.
← Назад