模型并行 - AI 术语表

📖

个术语

序列并行

一种并行形式，将输入张量的序列维度划分到多个加速器上，用于具有长序列的Transformer类型模型。

📖

个术语

专家并行

专门用于混合专家(MoE)密集模型的技术，其中不同的专家网络分布在不同的加速器上以平衡计算负载。

📖

个术语

分片数据并行

数据并行与ZeRO策略的结合，其中模型权重在工作节点之间进行分区(分片)，同时保持数据并行。

📖

个术语

激活检查点

一种内存技术，在前向传播期间不存储中间激活值，而是在反向传播时重新计算它们以节省GPU内存。

📖

个术语

混合并行

结合多种并行策略(例如：张量、流水线和数据并行)的方法，以最大化资源利用并在数千个加速器上扩展训练规模。

📖

个术语

全归约通信

数据并行中必不可少的集体通信操作，其中每个加速器的本地梯度被聚合并重新分发以同步模型权重。

📖

个术语

张量切片

张量并行的基本操作，沿特定维度(例如：行、列)分割张量以将其分布在多个设备上。

📖

个术语

GPipe

流水线并行的实现，使用微批处理和激活检查点来有效训练非常大的神经网络。

📖

个术语

Megatron-LM

由NVIDIA开发的张量并行架构，旨在通过分割权重矩阵和梯度来训练大规模语言模型。

📖

个术语

DeepSpeed

微软的优化库，实现了ZeRO、混合并行和内存压缩等先进技术，用于大规模模型训练。

📖

个术语

Offloading

内存管理策略，将数据（权重、梯度、激活）在快速的GPU内存和更慢但容量更大的CPU内存之间动态移动。

AI 词汇表