AI 词汇表
人工智能完整词典
模型蒸馏
一种压缩方法,其中大型复杂模型(教师)训练一个更小更快的模型(学生)来复制其输出,包括软概率,以传递知识并达到接近的性能,同时降低复杂度。
超参数优化
系统地寻找模型最佳超参数组合(如学习率、批大小)的过程,通常通过网格搜索、随机搜索或贝叶斯优化等方法,以在给定数据集上最大化其性能。
微调
将在大数据上预训练的模型适应到特定任务的技术,通过在更小、更有针对性的数据集上继续训练,可以用更少的数据和计算时间获得高性能。
推理优化
旨在减少生产环境中模型预测阶段的延迟和计算成本的一套技术,包括量化、为特定硬件加速器(TPU、GPU)编译和计算图优化。
模型编译
将来自TensorFlow或PyTorch等框架的模型计算图转换为目标硬件(CPU、GPU、TPU)的高度优化可执行格式的过程,应用操作融合和其他低级优化。
操作融合
一种编译技术,将计算图中的多个基本操作(如卷积后接偏置加法和激活)组合成单个核操作,从而减少内存开销和内存访问以加速执行。
ONNX (开放神经网络交换)
开放标准化的模型表示格式,实现不同AI框架(PyTorch、TensorFlow等)和推理运行时之间的互操作性,便于在各种硬件平台上部署和优化。
稀疏训练
训练范式,其中只有模型权重的一部分在每次迭代中更新,从而在学习过程中保持稀疏结构,从训练阶段就减少计算和内存需求。
神经架构搜索(NAS)
自动化设计给定任务的最优模型架构的过程,使用搜索算法(例如:强化学习、进化算法)探索可能的架构空间,找到性能与复杂度之间的最佳平衡点。
模型性能分析
对模型在训练或推理期间的详细性能分析,测量每个操作级别的执行时间、内存使用情况和性能瓶颈,以确定优化的优先目标。
批归一化折叠
训练后应用的优化技术,将批归一化层的参数(均值和方差)集成到前一个卷积层或线性层的权重和偏置中,从而消除推理时计算归一化的需要并降低延迟。
动态计算图
一种计算图在每次执行时动态构建的方法,允许条件化的模型结构(例如:提前退出、循环网络),这些结构可以根据输入自适应调整,以在'简单'样本上节省计算资源。