自监督迁移 - AI 术语表

📖

个术语

自监督学习

一种学习范式，模型通过创建人工监督任务，从未标记数据中学习表示。这种方法能够利用大量数据，而无需昂贵的手动标注。

📖

个术语

对比学习

一种自监督学习技术，通过在嵌入空间中将相似的正样本拉近，将不相似的负样本推远来学习表示。该方法最大化了同一样本不同增强视图之间的一致性。

📖

个术语

前置任务

为自监督学习设计的人工任务，它迫使模型从未标记数据中学习有用的特征。这些任务作为预训练的借口，以便将模型迁移到下游任务。

📖

个术语

动量对比

一种对比学习框架，它维护一个负样本队列，并使用动量编码器来保证表示的一致性。该方法允许使用大量负样本，而无需大批量。

📖

个术语

SimCLR

一种简单的对比学习框架，它通过最大化同一样本不同增强视图在经过神经网络后的一致性来学习。该方法证明了数据增强和批量大小对性能至关重要。

📖

个术语

BYOL

一种不使用负样本的自监督学习方法，它依赖于两个具有非对称架构和一个预测器的网络。BYOL通过梯度停止和动量更新来避免平凡的坍塌。

📖

个术语

特征表示

将原始数据编码为潜在空间中的向量，在该空间中语义关系得以保留并可用于下游任务。通过自监督学习到的表示捕获了可迁移的通用特征。

📖

个术语

未标记数据

没有手动标注的原始数据，与标记数据相比，它们丰富且收集成本低。自监督学习有效地利用这些数据来预训练高性能模型。

📖

个术语

Embedding Space

一个低维向量空间，数据被投影到其中以捕捉其语义和结构关系。在自监督学习中，目标是学习一个具有判别性的嵌入空间。

📖

个术语

Negative Sampling

在对比学习期间，选择应远离锚点（anchor）的样本的技术。负样本的策略性选择直接影响所学表征的质量。

📖

个术语

Projection Head

在主编码器之后应用的附加神经网络，用于将表征映射到计算对比损失的空间中。在迁移到下游任务时，该投影头通常会被移除。

📖

个术语

Encoder Architecture

负责将原始数据转换为有意义的向量表征的神经网络结构。架构（如ResNet、Transformer等）的选择会影响模型的抽象能力。

📖

个术语

DINO

一种基于两个网络之间知识蒸馏的自监督方法，不使用负样本。DINO产生的表征能自然地捕捉图像的语义信息，并且非常适用于聚类。

AI 词汇表