🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

序列并行

一种并行形式,将输入张量的序列维度划分到多个加速器上,用于具有长序列的Transformer类型模型。

📖
个术语

专家并行

专门用于混合专家(MoE)密集模型的技术,其中不同的专家网络分布在不同的加速器上以平衡计算负载。

📖
个术语

分片数据并行

数据并行与ZeRO策略的结合,其中模型权重在工作节点之间进行分区(分片),同时保持数据并行。

📖
个术语

激活检查点

一种内存技术,在前向传播期间不存储中间激活值,而是在反向传播时重新计算它们以节省GPU内存。

📖
个术语

混合并行

结合多种并行策略(例如:张量、流水线和数据并行)的方法,以最大化资源利用并在数千个加速器上扩展训练规模。

📖
个术语

全归约通信

数据并行中必不可少的集体通信操作,其中每个加速器的本地梯度被聚合并重新分发以同步模型权重。

📖
个术语

张量切片

张量并行的基本操作,沿特定维度(例如:行、列)分割张量以将其分布在多个设备上。

📖
个术语

GPipe

流水线并行的实现,使用微批处理和激活检查点来有效训练非常大的神经网络。

📖
个术语

Megatron-LM

由NVIDIA开发的张量并行架构,旨在通过分割权重矩阵和梯度来训练大规模语言模型。

📖
个术语

DeepSpeed

微软的优化库,实现了ZeRO、混合并行和内存压缩等先进技术,用于大规模模型训练。

📖
个术语

Offloading

内存管理策略,将数据(权重、梯度、激活)在快速的GPU内存和更慢但容量更大的CPU内存之间动态移动。

🔍

未找到结果