低资源模型 - AI 术语表

📖

个术语

低秩微调 (LoRA)

一种模型适配方法，它冻结预训练权重，并注入可分解的低秩小矩阵，从而能够以极少的可训练参数有效地将大型语言模型（LLM）适配到新任务。

📖

个术语

参数高效训练 (PEFT)

一种训练范式，它只调整大型预训练模型中极小一部分的参数，使得微调能够在消费级硬件上进行，同时保留了基础模型的知识。

📖

个术语

结构化剪枝

一种模型剪枝技术，它删除整个、连贯的组件（如注意力头、神经元、层），而不是单个权重，以减少计算量，同时保持与硬件加速器兼容的架构。

📖

个术语

层级渐进式训练

一种训练策略，其中模型的层被顺序引入和激活，从一个浅层网络开始，然后逐步增加深度，以稳定学习过程并减少初始资源需求。

📖

个术语

内存高效优化器

一种优化器变体（如 Adafactor 或 8-bit Adam），它通过避免为所有参数存储动量来减少优化器状态的内存占用，这对于在有限的 GPU 上训练大型模型至关重要。

📖

个术语

梯度检查点

一种计算与内存的权衡技术，它在前向传播过程中省略对中间激活值的保存，并在反向传播时重新计算它们，从而以增加计算时间为代价，大幅减少了 GPU 的内存使用。

📖

个术语

基于原始语料库的自监督学习

一种预训练方法，它通过创建内在的预测任务（如掩码语言模型）来利用大量未标注的文本数据，从而可以在不依赖昂贵的标注数据的情况下构建模型基础。

📖

个术语

成对指令微调

一种微调方法，它使用示例对（指令，期望输出）来使模型适应多种任务，通过使用有限数量的演示数据来提高其遵循指令的能力。

📖

个术语

注意力头剪枝

剪枝技术的专业化，它识别并移除Transformer机制中对模型性能贡献最小的注意力头，从而降低自注意力层的计算复杂性。

📖

个术语

多任务知识蒸馏

蒸馏技术的变体，其中单一学生模型学习模仿一组专精于不同任务教师模型的输出，从而以低计算成本获得多功能性。

📖

个术语

合成数据训练

使用强大的大型语言模型人工生成大量训练数据（文本、问答对），然后训练或微调较小模型的策略，减少对真实数据的依赖。

📖

个术语

激活卸载内存优化

在训练过程中将中间激活从快速GPU内存移动到较慢的CPU内存（或磁盘）的技术，使得能够运行通常超出GPU容量的更大模型。

📖

个术语

前缀调整调优

仅预训练添加到Transformer每层输入的小型前缀token向量，引导冻结模型针对特定任务行为的PEFT方法，成本可忽略。

📖

个术语

梯度累积训练

通过在小批次的前向传播中累积梯度，模拟更大批次大小的过程，然后执行单次权重更新步骤，从而绕过GPU内存限制。

📖

个术语

词汇压缩

通过合并罕见或语义相近的token来减少嵌入层大小的技术，从而降低存储模型词表示所需的参数数量和内存。

📖

个术语

对抗微调

使用对抗模型生成困难示例或攻击的方法，以训练学生模型在边界案例上更具鲁棒性和性能，从而用更少的数据获得更好的结果。

AI 词汇表