低资源模型
内存高效优化器
一种优化器变体(如 Adafactor 或 8-bit Adam),它通过避免为所有参数存储动量来减少优化器状态的内存占用,这对于在有限的 GPU 上训练大型模型至关重要。
← 返回一种优化器变体(如 Adafactor 或 8-bit Adam),它通过避免为所有参数存储动量来减少优化器状态的内存占用,这对于在有限的 GPU 上训练大型模型至关重要。
← 返回