AI 詞彙表
人工智能完整詞典
DETR (DEtection TRansformer)
一种开创性的架构,它通过将目标检测视为一个直接的集合预测问题,消除了对锚框和非极大值抑制的需求,并使用二分图Transformer来建模对象之间的关系。
二分图Transformer
Transformer架构的变体,其注意力机制应用于图像特征和一小部分固定的可学习对象查询之间,实现了对象的并行预测。
对象查询 (Object Queries)
可学习的位置嵌入向量,作为每个潜在对象预测的插槽,通过注意力机制与图像特征交互以提取相关信息。
二分图匹配损失 (Bipartite Matching Loss)
基于匈牙利算法的损失函数,它在模型预测和真实标签之间找到最佳的一对一匹配,解决了无监督下的预测排列问题。
编码器-解码器Transformer
一种结构,其中编码器处理图像特征以创建丰富的上下文表示,解码器使用对象查询将此表示解码为最终的边界框和类别预测。
多头多尺度注意力 (MSA)
一种注意力机制,作用于来自特征图多个级别的融合特征,使模型能够同时捕获局部和全局信息,以更好地检测不同大小的对象。
DETR-ResNet
DETR的变体,使用ResNet卷积神经网络作为主要特征提取器,结合了CNN的特征提取能力和Transformer的全局推理能力。
Mask2Former
用于全景、实例和语义分割的统一架构,它遮蔽感兴趣的区域并直接使用Transformer预测掩码,在准确性和简单性方面都超越了之前的方法。
位置嵌入
添加到图像特征中的向量,为Transformer提供空间信息,对模型理解场景几何结构和正确定位物体至关重要。
条件DETR
DETR的改进版本,通过根据图像内容调节对象查询来加速收敛,使查询能够更好地特化并做出更准确的预测。
可变形DETR
DETR的变体,集成了可变形注意力模块来关注一小部分关键点,显著提高了收敛速度和性能,特别适用于小物体检测。
稀疏R-CNN
完全稀疏的检测方法,使用一组固定的可学习建议框和transformer级联来优化预测,消除了对锚框或NMS等启发式方法的需求。
查询到注意力
对象查询引导模型注意力关注图像相关区域的机制,与全局注意力不同,提高了预测的效率和特化性。
DINO(带有改进去噪锚框的DETR)
最先进的模型,结合了改进的去噪锚框和Transformer架构,在检测基准测试中达到了最先进的性能,且无需NMS。
Transformer的焦点损失
旨在解决DETR模型收敛缓慢问题的损失函数,通过关注困难样本并减少分类良好的简单样本的贡献来实现。
Transformer全景分割
将Transformer架构应用于全景分割统一任务,使用单个端到端模型同时预测物体和背景的语义掩码。
Mamba-DETR
一种检测架构,它用受Mamba启发的状态空间块(State Space Blocks)替代注意力机制,为实时目标检测提供线性复杂度和有竞争力的性能。