AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
序列并行
一种并行形式,将输入张量的序列维度划分到多个加速器上,用于具有长序列的Transformer类型模型。
个术语
专家并行
专门用于混合专家(MoE)密集模型的技术,其中不同的专家网络分布在不同的加速器上以平衡计算负载。
个术语
分片数据并行
数据并行与ZeRO策略的结合,其中模型权重在工作节点之间进行分区(分片),同时保持数据并行。
个术语
激活检查点
一种内存技术,在前向传播期间不存储中间激活值,而是在反向传播时重新计算它们以节省GPU内存。
个术语
混合并行
结合多种并行策略(例如:张量、流水线和数据并行)的方法,以最大化资源利用并在数千个加速器上扩展训练规模。
个术语
全归约通信
数据并行中必不可少的集体通信操作,其中每个加速器的本地梯度被聚合并重新分发以同步模型权重。
个术语
张量切片
张量并行的基本操作,沿特定维度(例如:行、列)分割张量以将其分布在多个设备上。
个术语
GPipe
流水线并行的实现,使用微批处理和激活检查点来有效训练非常大的神经网络。
个术语
Megatron-LM
由NVIDIA开发的张量并行架构,旨在通过分割权重矩阵和梯度来训练大规模语言模型。
个术语
DeepSpeed
微软的优化库,实现了ZeRO、混合并行和内存压缩等先进技术,用于大规模模型训练。
个术语
Offloading
内存管理策略,将数据(权重、梯度、激活)在快速的GPU内存和更慢但容量更大的CPU内存之间动态移动。
🔍