🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

低秩微调 (LoRA)

一种模型适配方法,它冻结预训练权重,并注入可分解的低秩小矩阵,从而能够以极少的可训练参数有效地将大型语言模型(LLM)适配到新任务。

📖
个术语

参数高效训练 (PEFT)

一种训练范式,它只调整大型预训练模型中极小一部分的参数,使得微调能够在消费级硬件上进行,同时保留了基础模型的知识。

📖
个术语

结构化剪枝

一种模型剪枝技术,它删除整个、连贯的组件(如注意力头、神经元、层),而不是单个权重,以减少计算量,同时保持与硬件加速器兼容的架构。

📖
个术语

层级渐进式训练

一种训练策略,其中模型的层被顺序引入和激活,从一个浅层网络开始,然后逐步增加深度,以稳定学习过程并减少初始资源需求。

📖
个术语

内存高效优化器

一种优化器变体(如 Adafactor 或 8-bit Adam),它通过避免为所有参数存储动量来减少优化器状态的内存占用,这对于在有限的 GPU 上训练大型模型至关重要。

📖
个术语

梯度检查点

一种计算与内存的权衡技术,它在前向传播过程中省略对中间激活值的保存,并在反向传播时重新计算它们,从而以增加计算时间为代价,大幅减少了 GPU 的内存使用。

📖
个术语

基于原始语料库的自监督学习

一种预训练方法,它通过创建内在的预测任务(如掩码语言模型)来利用大量未标注的文本数据,从而可以在不依赖昂贵的标注数据的情况下构建模型基础。

📖
个术语

成对指令微调

一种微调方法,它使用示例对(指令,期望输出)来使模型适应多种任务,通过使用有限数量的演示数据来提高其遵循指令的能力。

📖
个术语

注意力头剪枝

剪枝技术的专业化,它识别并移除Transformer机制中对模型性能贡献最小的注意力头,从而降低自注意力层的计算复杂性。

📖
个术语

多任务知识蒸馏

蒸馏技术的变体,其中单一学生模型学习模仿一组专精于不同任务教师模型的输出,从而以低计算成本获得多功能性。

📖
个术语

合成数据训练

使用强大的大型语言模型人工生成大量训练数据(文本、问答对),然后训练或微调较小模型的策略,减少对真实数据的依赖。

📖
个术语

激活卸载内存优化

在训练过程中将中间激活从快速GPU内存移动到较慢的CPU内存(或磁盘)的技术,使得能够运行通常超出GPU容量的更大模型。

📖
个术语

前缀调整调优

仅预训练添加到Transformer每层输入的小型前缀token向量,引导冻结模型针对特定任务行为的PEFT方法,成本可忽略。

📖
个术语

梯度累积训练

通过在小批次的前向传播中累积梯度,模拟更大批次大小的过程,然后执行单次权重更新步骤,从而绕过GPU内存限制。

📖
个术语

词汇压缩

通过合并罕见或语义相近的token来减少嵌入层大小的技术,从而降低存储模型词表示所需的参数数量和内存。

📖
个术语

对抗微调

使用对抗模型生成困难示例或攻击的方法,以训练学生模型在边界案例上更具鲁棒性和性能,从而用更少的数据获得更好的结果。

🔍

未找到结果