AI 词汇表
人工智能完整词典
低秩微调 (LoRA)
一种模型适配方法,它冻结预训练权重,并注入可分解的低秩小矩阵,从而能够以极少的可训练参数有效地将大型语言模型(LLM)适配到新任务。
参数高效训练 (PEFT)
一种训练范式,它只调整大型预训练模型中极小一部分的参数,使得微调能够在消费级硬件上进行,同时保留了基础模型的知识。
结构化剪枝
一种模型剪枝技术,它删除整个、连贯的组件(如注意力头、神经元、层),而不是单个权重,以减少计算量,同时保持与硬件加速器兼容的架构。
层级渐进式训练
一种训练策略,其中模型的层被顺序引入和激活,从一个浅层网络开始,然后逐步增加深度,以稳定学习过程并减少初始资源需求。
内存高效优化器
一种优化器变体(如 Adafactor 或 8-bit Adam),它通过避免为所有参数存储动量来减少优化器状态的内存占用,这对于在有限的 GPU 上训练大型模型至关重要。
梯度检查点
一种计算与内存的权衡技术,它在前向传播过程中省略对中间激活值的保存,并在反向传播时重新计算它们,从而以增加计算时间为代价,大幅减少了 GPU 的内存使用。
基于原始语料库的自监督学习
一种预训练方法,它通过创建内在的预测任务(如掩码语言模型)来利用大量未标注的文本数据,从而可以在不依赖昂贵的标注数据的情况下构建模型基础。
成对指令微调
一种微调方法,它使用示例对(指令,期望输出)来使模型适应多种任务,通过使用有限数量的演示数据来提高其遵循指令的能力。
注意力头剪枝
剪枝技术的专业化,它识别并移除Transformer机制中对模型性能贡献最小的注意力头,从而降低自注意力层的计算复杂性。
多任务知识蒸馏
蒸馏技术的变体,其中单一学生模型学习模仿一组专精于不同任务教师模型的输出,从而以低计算成本获得多功能性。
合成数据训练
使用强大的大型语言模型人工生成大量训练数据(文本、问答对),然后训练或微调较小模型的策略,减少对真实数据的依赖。
激活卸载内存优化
在训练过程中将中间激活从快速GPU内存移动到较慢的CPU内存(或磁盘)的技术,使得能够运行通常超出GPU容量的更大模型。
前缀调整调优
仅预训练添加到Transformer每层输入的小型前缀token向量,引导冻结模型针对特定任务行为的PEFT方法,成本可忽略。
梯度累积训练
通过在小批次的前向传播中累积梯度,模拟更大批次大小的过程,然后执行单次权重更新步骤,从而绕过GPU内存限制。
词汇压缩
通过合并罕见或语义相近的token来减少嵌入层大小的技术,从而降低存储模型词表示所需的参数数量和内存。
对抗微调
使用对抗模型生成困难示例或攻击的方法,以训练学生模型在边界案例上更具鲁棒性和性能,从而用更少的数据获得更好的结果。