Оптимизация трансформеров
Параллелизм моделей
Стратегия распределения, при которой различные компоненты модели размещаются на разных вычислительных устройствах для управления моделями, превышающими память одного GPU.
← Назад