ICCV2023 | MCD: Misalign, Contrast then Distill：重新思考VLP中的错位

论文标题: Misalign, Contrast then Distill: Rethinking Misalignments in Language-Image Pretraining

论文地址：ICCV 2023 Open Access Repository

代码：None

LG AI Research

一、问题提出

SLIP发现，在CLIP中引入增强（特别是调整裁剪和翻转的大小）实际上会导致性能下降。SimCLR通过在图像之间用自监督学习损失代替infoNCE，避开了在CLIP中使用增强视图，但是在充分捕捉多模式学习的本质方面存在局限性。但是对于image-text中随机图像增强过程不知道其对应的文本，经常导致增强图像视图与其描述不一致：

这些不一致给VLP中对比损失中加入了噪声，如果不适当处理，会导致性能下降。为了缓解这个问题，最近，使用额外的augmentation embeddings或 heavy external off-the-shelf object detectors and summary extractors 来匹配训练期间的对齐。但是他们局限性是在训练和推理中都增加了不必要的负担。

因此，是否可以将其利用起来？即是否可以将它们作为VLP的训练源。

二、Methods

1、Misalign

对图像进行随机扩增，创建图像与文本出现不同程度的错位（或根本不对齐）。存在三种情况（i）文本不可知的随机增强可能会导致正图像-文本对中的错位。（ii）随机增强可能错误地导致负对之间的正信号出现。（iii）在原始图像-文本对内可能已经天然存在错位。

（其实就是三种错位：正样本对变负样本对，负样本对变正样本对，数据集中本来的错位）

2、Contrast

将所有数据（图像、文本和增强图像）映射到一个同一多模态空间中，并通过对比目标（对比度）学习所有图像-文本对之间的距离。具体：使用这两种模态的所有正对和负对。包括N个图像样本、N个文本样本和N个随机增强图像样本，zi为batch（3N）中的i-th embedding，zp为正样本：

3、Distill

Log-Ratio Loss for Image–Text Distance.

给定学生的fI和动量教师的f'I，通过学习embedding空间中图像-文本不对齐的比率来近似相似距离的比率。使用Log-Ratio损失:

Misalignment in Positive pairs.

设i′表示增强图像样本的索引。在方程（5）InfoNCE上，第i′个图像样本和第i个文本样本作为正对。然而，随机扩充偶尔可以将正对转换为负对。为了解释这种转换，利用原始对和增广对之间的对数比：

Misalignment in Negative pairs.

增强图像可以与不同的文本具有相关性，这通常被视为方程中的负对：

Misalignment in Noisy pairs.

提出了噪声对的损失，其中噪声标签被训练为比匹配的图像-文本对具有更大的距离：

Distillation Loss.

总的算法流程：

三、Training MCD

1、MLM Loss.

2、Momentum Teacher Update.

学生Encoder器和动量教师Encoder。学生使用损失更新，教师使用动量更新：

3、Progressive Distillation.

InfoNCE的损失与错位损失相冲突。因为InfoNCE不管其错位程度如何，它只管拉开距离。在训练的早期阶段，模型需要学习如何用硬标签区分阳性或阴性配对。然而，随着训练的进行，对数比损失精细地模拟了原始图像-文本对中增加或固有存在的各种不对齐之间的距离。因此，逐渐减少涉及增强视图的InfoNCE损失的贡献：

四、Experiment

MCD Pretraining on YFCC15M Dataset

Image–Text Retrieval

Vision–Language Compositionality

ImageNet zero-shot

Ablation Study

该工作的亮点在于将这种Misalignments当成一种训练资源在用，并引入了Log-Ratio（计算错位的相似度差），分成三类，故事很好。早前训练InfoNCE Loss为主，后期训练以Log-Ratio Loss为主。根据教师网络的参数更新方式，教师网络和学生网络就是“动量编码器”与“编码器”之间区别，只是套上了一层蒸馏的意识外壳（因为要求相似度的差值）。