A Dual Weighting Label Assignment Scheme for Object Detection

A Dual Weighting Label Assignment Scheme for Object Detection

一种用于目标检测的双加权标签分配方案

ABSTRACT

标签分配(LA)旨在为每个训练样本分配正(pos)和负(neg)损失权重,在目标检测中发挥着重要作用。现有的LA方法大多侧重于pos权重函数的设计,而neg权重则直接由pos权重导出。这种机制限制了探测器的学习能力。在本文中,我们探索了一种新的加权范式,成为双重加权(DW),以分别制定正权重和负权重。我们首先通过分析目标检测中的评估指标来确定pos/neg权重的关键影响因素,然后根据它们设计pos和neg权重函数。具体来说,样本的pos权重由其分类分数和定位分数之间的一致性程度决定,而neg权重则分解为两项:其为负样本的概率以及其作为负样本的重要性。这种加权策略提供了更大的灵活性来区分重要和不太重要的样本,从而产生更有效的目标检测器。配备所提出的DW方法,单个FCOS-RESNet-50检测器可以在1*调度下在coco上达到31.5%mAP,优于其他现有的LA方法,它在各种骨干网下持续大幅度提高了coco的基线,没有任何附加功能。

Introduction

作为一项基本的视觉任务,物体检测几十年来一直受到研究人员的极大关注。最近,随着卷积神经网络(CNN)和视觉转换器的发展,当前最先进的检测区主要通过一组预定义的锚点预测类标签和回归偏移来执行密集检测。作为检测器训练的基本单元。锚点需要被分配适当的分类(cls)和回归(reg)标签来监督训练过程。这样的标签分配(LA)过程可以视为给每个anchor分配损失权重的任务。锚点的cls损失通常可以表示为

在这里插入图片描述

其中wpos和wneg分别是正(pos)和负(neg)权重,s是预测的分类分数。根据wp和wn的设计,LA方法大致可以分为两类:硬LA和软LA。Hard LA假设每个anchor要么是pos,要么是neg,这意味着wp,wn属于(0,1)并且wn+wg=1.该策略的核心思想是找到一个合适的划分边界,将anchor分割成一个正集和一个负集。这一研究思路的划分规则又可分为静态划分规则和动态划分规则。静态规则采用预定义的指标,例如IoU或锚点中心到地面实况(GT)中心的距离来匹配对象或背景到每个锚点。这种静态分配规则忽略了不同大小和形状的对象的划分边界可能不同的事实。最近,人们提出了许多动态分配规则。例如ATSS根据对象的IoU分布来分割对象的训练锚。预测感知分配策略将预测的置信度分数视为估计锚点质量的可靠指标。静态和动态分配方法都忽略了样本并不同等重要的事实。目标检测中的评估指标表明,最佳预测不仅应该具有高分类分数,而且还应该具有准确的定位,这意味着cls head和reg head之间具有较高一致性的锚在训练过程中应该具有更大的重要性。
出于上述动机,研究人员选择为锚点分配软权重。GFL和VFL是两种典型的方法,他们基于IoU定义软标签目标,然后通过乘以调制因子将其转化为损失权重。其他一些作品铜鼓哦联合考虑reg分数和cls分数来计算样本权重。现有的方法主要集中在pos权重函数的设计上,而neg权重只是简单的从pos权重导出,由于neg权重提供的新监督信息很少,这可能会限制检测器的学习能力。我们认为这种耦合加权机制无法在更精细的水平上区分每个训练样本。图1显示了一个示例。四个anchor有不同的预测结果。然后GFL和VFL分别为(B,D)和(C,D)分配几乎相同的(正,负)权重对。GFL还为锚点A和C分配零pos和neg权重,因为每个锚点都有相同的cls分数和IoU。由于现有软LA方法中的neg权重函数与pos权重函数高度相关,因此又是可以为具有不同属性的锚点分配几乎相同的(pos,neg)权重,这可能会损害训练后的检测器的有效性。

为了向检测器提供更具辨别力的监督信号,我们提出了一种新的 LA 方案,称为双权重(DW),从不同角度指定 pos 和 neg 权重,并使它们相互补充。具体来说,pos权重是由置信度得分(从cls头获得)和reg得分(从reg头获得)的组合动态确定的。每个锚点的负权重被分解为两项:它是负样本的概率及其以负样本为条件的重要性。 pos权重反映了cls头和reg头之间的一致性程度,它将推动一致性较高的anchor在anchor列表中向前移动,而neg权重则反映了不一致程度,并将不一致的anchor推到列表的后面。通过这种方式,在推理时,具有更高 cls 分数和更精确位置的边界框在 NMS 后将有更好的机会生存,而那些位置不精确的边界框将落后并被过滤掉。参考图1,DW通过为四个不同的anchor分配不同的(pos,neg)权重对来区分它们,这可以为检测器提供更细粒度的监督训练信号。

为了给我们的权重函数提供更准确的reg分数,我们进一步提出了框细化操作。具体来说,我们设计了一个学习预测模块,根据粗回归图生成四个边界位置,然后聚合它们的预测结果以获得当前锚点的更新边界框。这个轻量级模块使我们能够通过仅引入适度的计算开销来向 DW 提供更准确的 reg 分数。

我们提出的 DW 方法的优点通过 MS COCO 上的综合实验得到了证明。

特别是,它将具有 ResNet50 [13] 主干的 FCOS 检测器在常见 1× 训练方案下的 COCO 验证集上提升到 41.5/42.2 AP w/wo 框细化,超越了其他 LA 方法。

Related work

硬标签分配。将每个锚标记为正样本或负样本是训练检测器的关键过程。

经典的基于锚点的物体检测器,通过测量锚点与 GT 物体的 IoU 来设置锚点的标签。近年来,无锚检测器因其简洁的设计和可比的性能而备受关注。

FCOS 和 Foveabox 都通过中心采样策略来选择 pos 样本:靠近 GT 中心的锚点被采样为正样本,其他锚点为负样本或在训练过程中被忽略。上述LA方法对不同形状和大小的GT盒采用固定规则,这不是最优的。

一些先进的 LA 策略 被提出来为每个 GT 动态选择 pos 样本。 ATSS从特征金字塔的每一层中选择top-k个anchor,并采用这些topanchor的平均值+std IoU作为正/负划分阈值。 PAA 根据 cls 和 reg 损失的联合状态以概率方式自适应地将锚分为 pos/neg 锚。 OTA通过将分配过程表述为最优运输问题,从全局角度处理洛杉矶问题。基于 Transformer 的检测器 通过为每个 GT 找到最佳的 pos 样本,采用一对一的分配方案。 Hard LA 对所有样本一视同仁,但这与目标检测中的评估指标不太兼容。

软标签分配 由于预测框在评估时具有不同的质量,因此在训练过程中应区别对待样本。许多作品 被提出来解决不平等问题训练样本。焦点损失在交叉熵损失上添加了一个调制因子,以减轻分配给分类良好的样本的损失的权重,这促使检测器专注于硬样本。广义焦点损失通过联合考虑类分数和定位质量为每个锚点分配一个软权重。变焦损失利用 IoU 感知的 cls 标签来训练 cls 头。上面提到的大多数方法都专注于计算 pos 权重,并简单地将 neg 权重定义为 1 - wpos 的函数。在本文中,我们解耦了这个过程,并为每个锚分别分配 pos 和 neg 损失权重。大多数软 LA 方法都会为损失分配权重。有一种特殊情况,权重被分配给分数,可以表示为 Lcls = ? ln (wpos × s) ? ln (1 ? wneg × s)。典型的方法包括 FreeAnchor 和 Autoassign 。应该指出的是,我们的方法与他们不同。为了以完全差分的方式匹配锚点,自动分配中的 wpos 和 wneg 仍然接收梯度。然而,在我们的方法中,损失权重是经过精心设计的,并且完全脱离网络,这是权重损失的常见做法。

Proposed Method

Motivation and Framework

为了与 NMS 兼容,良好的密集检测器应该能够预测具有高分类分数和精确位置的一致边界框。

然而,如果同等对待所有训练样本,两个头之间就会出现错位:类别得分最高的位置通常不是回归对象边界的最佳位置。这种错位会降低检测器的性能,尤其是在高 IoU 指标下。 Soft LA,通过加权损失的方式对训练样本进行软处理,是增强cls和reg头一致性的尝试。

使用软LA,锚点的损失可以表示为:!在这里插入图片描述

其中 s 是预测的 cls 分数,b 和 b ′ 分别是预测的边界框和 GT 对象的位置,?reg 是回归损失,例如 Smooth L1 Loss 、IoU Loss 和 GIoU Loss 。 cls 和 reg 头之间的不一致问题可以通过将更大的 wpos 和 wreg 分配给具有更高一致性的锚点来缓解。因此,这些训练有素的锚能够在推理时同时预测高 cls 分数和精确位置。

现有的工作通常将wreg设置为等于wpos,并且主要关注如何定义一致性并将其整合到损失权重中。表1总结了最近代表性的pos锚的wpos和wneg的公式方法

在这里插入图片描述

可以看到,目前的方法通常定义一个度量t来表示两个头在anchor级别上的一致性程度,然后将不一致性度量设计为1?t的函数。通过添加缩放因子((s?t) 2 、s 2 或 t),一致和不一致的度量最终分别集成到 pos 和 neg 损失权重中。

与上述 wpos 和 wneg 高度相关的方法不同,我们建议以预测感知的方式分别设置 pos 和 neg 权重。具体来说,pos权重函数以预测的cls得分s以及预测框与GT对象之间的IoU为输入,通过估计cls和reg头之间的一致性程度来设置pos权重。 neg 加权函数采用与 pos 加权函数相同的输入,但将 neg 权重表示为两项的乘积:锚点为负值的概率,以及其重要性以它为负值为条件。通过这种方式,具有相似 pos 权重的模糊锚可以接收具有不同 neg 权重的更细粒度的监督信号,这是现有方法所不具备的。

我们的 DW 框架的流程如图 2 所示。

作为一种常见的做法 [9,11,12,38],我们首先通过选择 GT 中心(中心先验)附近的锚点来为每个 GT 对象构建候选正值包。候选包之外的锚被视为负样本,不会参与加权函数的设计过程,因为它们的统计数据(例如,IoU、cls 分数)在早期训练阶段非常嘈杂。候选包内的锚点将被分配三个权重,包括wpos、wneg和wreg,以更有效地监督训练过程。

Positive Weighting Function

样本的 pos 权重应反映其在分类和定位中准确检测对象的重要性。我们试图通过分析目标检测的评估指标来找出影响这种重要性的因素。在 COCO 测试期间,一个类别的所有预测都应该通过排名指标进行正确排名。现有方法通常使用 cls 分数 或 cls 分数与预测 IoU 的组合作为排名指标。将从排名列表的开头开始检查每个边界框的正确性。当且仅当满足以下条件时,预测才会被定义为正确的预测:

A。预测边界框与其最近的GT对象之间的IoU大于阈值θ;

b.满足上述条件的框不会排在当前框的前面。

在这里插入图片描述

图2:DW 管道。左边部分展示了整体检测模型,由backbone、FPN和检测头组成。分类分支 (H × W × C) 和中心分支 (H × W × 1) 的输出相乘作为最终的 cls 分数。框细化模块利用四个预测边界点(H × W × 8)将粗略预测(H × W × 4)调整到更精细的位置。右侧部分显示了加权过程。给定一个对象,首先通过选择对象中心附近的锚点来构建候选锚包。然后,每个锚点将被分配来自不同方面的 pos 权重和 neg 权重。

总之,只有预测列表中 IoU 大于 θ 的第一个边界框才会被定义为 pos 检测,而所有其他边界框都应被视为同一 GT 的误报。可见,高排名分数和高 IoU 都是 pos 预测的充分必要条件。这意味着同时满足两个条件的锚更有可能在测试期间被定义为位置预测,因此它们在训练期间应该具有更高的重要性。从这个角度来看,pos权重wpos应该与IoU和排名分数正相关,即wpos ∝ IoU和wpos ∝ s。为了指定pos函数,我们首先定义一个一致性度量,记为t,来衡量两个条件之间的对齐程度:在这里插入图片描述

其中 β 用于平衡这两个条件。为了鼓励不同锚点之间的 pos 权重存在较大差异,我们添加了指数调制因子:在这里插入图片描述

其中 μ 是一个超参数,用于控制不同 pos 权重的相对差距。最后,每个实例的每个锚点的 pos 权重通过候选包内所有 pos 权重的总和进行归一化

Negative Weighting Function

尽管 pos 权重可以强制一致的锚点具有高 cls 分数和大的 IoU,但不太一致的锚点的重要性无法通过 pos 权重来区分。参考图1,anchor D具有更精细的位置(比θ更大的IoU)但cls分数较低,而anchor B具有更粗糙的位置(比θ更小的IoU)但cls分数更高。它们可能具有相同的一致性程度t,因此会以相同的pos强度被推进,这不能体现它们的差异。为了为检测器提供更具辨别力的监督信息,我们建议通过为它们分配更多不同的负权重来忠实地表明它们的重要性,这些负权重被定义为以下两项的乘积。

**成为负样本的概率。**根据COCO的评估指标,小于θ的IoU是错误预测的充分条件。这意味着不满足 IoU 指标的预测边界框将被视为负检测,即使它具有较高的 cls 分数。也就是说,IoU是决定负样本概率的唯一因素,用Pneg表示。由于COCO采用0.5到0.95的IoU区间来估计AP,因此边界框的概率Pneg应满足以下规则:在这里插入图片描述

在区间 [0.5,0.95] 内定义的任何单调递减函数都符合 Pneg。为了简单起见,我们将 Pneg 实例化为以下函数:

在这里插入图片描述

它穿过点 (0.5, 1) 和 (0.95,0)。一旦确定了γ1,就可以通过待定系数法得到参数k和b。图3绘制了不同γ1值下Pneg与IoU的曲线。

重要性以负样本为条件。

推理时,排名列表中的否定预测不会影响召回率,但会降低精度。为了延迟这个过程,负边界框应该排在后面:可能的话,即他们的排名分数应该尽可能小。基于这一点,具有较大排名分数的负预测比具有较小排名分数的负预测更重要,因为它们是网络优化的较难示例。因此,负样本的重要性(用 Ineg 表示)应该是排名分数的函数。为了简单起见,我们将其设置为在这里插入图片描述

其中γ2是一个因子,指示应该对重要的负样本给予多少优先权。

最后,负权重 wneg = Pneg × Ineg 变为在这里插入图片描述

与 IoU 负相关,与 s 正相关。可以看出,对于两个pos权重相同的anchor,IoU较小的anchor会有较大的neg权重。 wneg 的定义与推理过程很好地兼容,它可以进一步区分具有几乎相同 pos 权重的模糊锚。

在这里插入图片描述

图3: 。 [0.5,0.95] 中 Pneg 与不同 γ1 的 IoU 的曲线。

Box Refinement

由于 pos 和 neg 加权函数都以 IoU 作为输入,更准确的 IoU 可以产生更高质量的样本,有利于学习更强的特征。我们提出了一种框细化操作,以基于预测的偏移图 O ∈ RH×W×4 来细化边界框,其中 O(j, i) = {Δl, Δt, Δr, Δb} 表示预测距离从当前锚点的中心分别到GT对象的最左边的l、最上面的t、最右边的r和最下面的b边,如图4所示。受到靠近对象边界的点更有可能预测准确这一事实的启发位置,我们设计了一个可学习的预测模块来根据粗边界框。参见图4,四个边界点的坐标定义为:在这里插入图片描述

其中 {Δx l , Δ y l , Δx t , Δ y t , Δx r , Δy r , Δx b , Δ y b } 是细化模块的输出。

细化后的偏移图O′更新为:在这里插入图片描述

在这里插入图片描述

框细化操作的图示。首先通过预测四个距离 = {Δl, Δt, Δr, Δb} 生成位置 (j,i) 处锚点的粗边界框(橙色框)。然后相对于四个侧点(绿色点)预测四个边界点(橙色点)。最后,通过聚合四个边界点的预测结果生成更精细的边界框(绿色框)。

Loss function

所提出的 DW 方案可以应用于大多数现有的密集检测器。这里我们采用代表性的密集检测器FCOS[38]来实现DW。如图2所示,整个网络结构包括主干、FPN和检测头。遵循约定,我们将中心分支和分类分支的输出相乘作为最终的 cls 分数。我们网络的最终损失是在这里插入图片描述

其中 β 是平衡因子,与式(1)中的相同。 3、和在这里插入图片描述

其中N和M分别是候选袋内部和外部的anchor总数,FL是焦点损失,GIoU是回归损失,s是预测的cls分数,b和b′是分别是预测框和 GT 对象的位置。

在这里插入图片描述

在这里插入图片描述

Experiments

数据集和评估指标。在大规模检测基准 MSCOCO 上进行了大量的实验,其中分别包含用于训练集、验证集和测试开发集的 115K、5K 和 20K 图像。我们报告了对验证集的分析和消融研究,并与测试开发集上的其他最先进的技术进行比较。性能通过COCO平均精度(AP)来衡量。

**实施细节。**除非另有说明,我们使用在 ImageNet 上预训练的 ResNet-50 和 FPN 作为所有实验的主干。按照惯例,大多数模型都训练有 12 个 epoch,在 中表示为 1×。初始学习率为 0.01,在第 8 个和第 11 个 epoch 之后衰减了 10 倍。对于所有消融,除非另有说明,否则我们使用 800 像素的图像比例进行训练和测试。所有实验均在 8 个 GPU 上使用 SGDM 进行训练,总批量大小为 16(每个 GPU 2 个图像)。推理时,我们以阈值0.05过滤掉背景框,并通过NMS以阈值0.6去除冗余框,得到最终的预测结果。超参数γ1、γ2、β和μ分别设置为2、2、5和5。

Ablation Studies

正权重的超参数。 pos 权重有两个超参数:β 和 μ。 β 平衡一致性度量 t 中 cls 分数和 IoU 之间的贡献。随着β的增加,IoU的贡献度也随之增加。 μ 控制 pos 权重的相对比例。较大的 μ 使得最一致的样本与不太一致的样本相比具有相对更大的 pos 权重。在表 2 中,我们通过将 β 从 3 更改为 7、μ 从 3 更改为 8 来展示 DW 的性能。可以看出,当 β 为 5、μ 为5。β 和 μ 的其他组合会将 AP 性能从 0.1 降低到 0.7。因此,我们在其余所有实验中将β和μ设置为5。

在这里插入图片描述

在这里插入图片描述

负权重的超参数。我们还进行了一些实验来研究 DW 对超参数 γ1 和 γ2 的鲁棒性,这些超参数用于调节负权重的相对尺度。使用γ1和γ2不同组合的AP结果范围为41到41.5,如表3所示。这意味着DW的性能对这两个超参数不敏感。

我们在所有实验中都采用γ1 = 2,γ2 = 2。

候选人袋的构造。作为目标检测中的常见做法,软 LA 仅应用于候选包内的锚点。我们测试了三种候选包构建方法,它们都是基于从锚点到相应 GT 中心的距离 r(通过特征步长标准化)。第一种方法是选择距离小于阈值的锚点。第二个是从 FPN 的每个级别中选择 top-k 最近的anchor。

第三种是给每个anchor一个软中心权重e ?r 2 并将其与wpos相乘。结果如表4所示。

可以看到AP性能在41.1和41.5之间小幅波动,这表明我们的DW对于候选袋的分离方法具有鲁棒性

负权重函数的设计。我们通过用其他替代方案替换负权重函数来研究负权重函数的影响,如表 5 所示。我们可以看到,仅使用 pos 权重将性能降低至 39.5,这表明对于一些低质量的锚点,仅将它们分配给较小的值wpos不足以降低他们的排名分数。可以强制它们以更大的 wneg 排名后面,从而在测试期间获得更高的 AP。

在这里插入图片描述

在不使用 Ineg 或 Pneg 的情况下,我们分别获得 40.5 AP 和 40.0 AP,这验证了这两项都是必要的。正如现有方法中所做的那样,我们尝试用 1?wpos 替换 wneg,但获得了 40.7 AP 的性能,比我们的标准 DW 低 0.8 个点。

盒子细化。在没有框细化的情况下,我们的 DW 方法达到了 41.5 AP,据我们所知,这是第一个在 COCO 上在不增加任何参数和训练成本的情况下在 FCOS-ResNet-50 上实现超过 41 AP 性能的方法。通过框细化,DW 可以达到 42.2 AP,如表 6 所示。表 7 还表明,框细化可以持续提高不同骨干网的 DW 的性能。

加权策略。为了证明我们的 DW 策略的有效性,我们将其与使用不同加权策略的其他 LA 方法进行比较。结果如表6所示。前五行是硬LA方法,其余是软LA方法。

硬 LA 的最佳性能是通过 OTA 实现的,AP 为 40.7。由于OTA将LA制定为最优传输问题,因此会使训练时间增加20%以上。 GFLv2 利用额外复杂的分支来估计定位质量,并在软 LA 方法中实现了 41.1 AP 的第二佳性能。

与将权重分配给损失的主流方法不同,自动分配将权重分配给 cls 分数,并在训练期间通过梯度更新它们。我们尝试将Autoassign中的权重分离出来,分配给loss,但只获得了39.8和36.6的AP,分别比原来的性能低了0.6和3.8个点。这意味着自动分配中的加权方案无法工作

使其适应主流实践时效果很好。

4.2.与最先进的比较我们将我们的 DW 与 test-dev 2017 上的其他单阶段检测器进行比较,如表 7 所示。遵循之前的工作 ,多尺度训练策略和 2× 学习计划训练期间采用(24 epoch)。我们报告所有方法的单模型单规模测试的结果。其他设置与一致。

除了 LA 策略之外,一些作品还利用额外的特征学习模块来增强其检测器。为了公平比较,在表 7 中,我们通过报告使用此辅助模块时的性能来与它们进行比较。可以看出,我们使用 ResNet101 的 DW 方法达到了 46.2 AP,优于具有相同主干的所有其他竞争方法,包括 VFL (44.9 AP)、GFL (45.0 AP) 和 OTA (45.3 AP)。当使用 ResNet-101-DCN 和 ResNeXt-10164x4d 等更强大的主干网时,DW 达到 49.3 和 48.2 AP,分别超过 GFL 2 和 2.2 个点。我们还可以看到,盒子细化的操作在不同的骨干网络上持续改进了 DW。值得一提的是,当我们用 TOOD 中提出的检测头替换 FCOS 中的检测头时,DW 达到了 49.8 AP,比 TOOD 好 1.5 个点。这表明我们的 DW 策略对其他检测头具有良好的泛化能力。

在这里插入图片描述

Comparison with State-of-the-Arts

我们在表 7 中将我们的 DW 与 test-dev 2017 上的其他单阶段检测器进行了比较。继之前的工作之后,在训练过程中采用了多尺度训练策略和 2× 学习计划(24 epoch)。我们报告所有方法的单模型单规模测试的结果。其他设置与一致。

除了 LA 策略之外,一些作品 还利用额外的特征学习模块来增强其检测器。为了公平比较,在表 7 中,我们通过报告使用此辅助模块时的性能来与它们进行比较。可以看出,我们使用 ResNet101 的 DW 方法达到了 46.2 AP,优于具有相同主干的所有其他竞争方法,包括 VFL (44.9 AP)、GFL (45.0 AP) 和 OTA (45.3 AP)。当使用 ResNet-101-DCN 和 ResNeXt-10164x4d 等更强大的主干网时,DW 达到 49.3 和 48.2 AP,分别超过 GFL 2 和 2.2 个点。我们还可以看到,盒子细化的操作在不同的骨干网络上持续改进了 DW。值得一提的是,当我们用 TOOD [9] 中提出的检测头替换 FCOS 中的检测头时,DW 达到了 49.8 AP,比 TOOD 好 1.5 个点。这表明我们的 DW 策略对其他检测头具有良好的泛化能力。

Discussions

DW 的可视化。为了进一步理解 DW 和现有方法之间的区别,我们在图 5 中展示了 DW 和两种代表性方法 GFL 和 VFL 的 cls 分数、IoU、pos 和 neg 权重的可视化图。可以看出,DW 中的 pos 和 neg 权重主要集中在 GT 的中部区域,而GFL 和 VFL 在更广泛的区域上分配权重。这种差异意味着 DW 可以更多地关注重要样本,并减少简单样本的贡献,例如靠近对象边界的样本。这就是为什么DW对于候选包的选择更加稳健。

我们还可以看到,中心区域的锚点在 DW 中具有不同的(正、负)权重对。相反,GFL 和 VFL 中的 neg 权重与 pos 权重高度相关。橙色圆圈突出显示的锚点在 GFL 和 VFL 中具有几乎相同的 pos 权重和 neg 权重,而 DW 可以通过分配不同的权重来区分它们,为网络提供更高的学习能力。

DW 的限制。虽然DW可以很好地区分不同anchor对于一个物体的重要性,但同时会减少训练样本的数量,如图5所示。这可能会影响小物体上的训练效果。如表7所示,DW在小对象上的改进不如在大对象上的改进高。

为了缓解这个问题,我们可以根据对象大小动态设置 wpos 的不同超参数,以平衡小对象和大对象之间的训练样本。

在这里插入图片描述

Conclusion

我们提出了一种自适应标签分配方案,称为双权重(DW),来训练准确的密集对象检测器。 DW打破了之前密集检测器中耦合加权的惯例,通过从不同方面估计一致性和不一致性指标,为每个anchor动态分配单独的pos和neg权重。还开发了一种新的框细化操作来直接细化回归图上的框。 DW 与评估指标高度兼容。 MS COCO benchmark上的实验验证了DW在各种backbone下的有效性。无论是否进行框细化,使用 ResNet-50 的 DW 分别实现了 41.5 AP 和 42.2 AP,创下了新的最先进水平。作为一种新的标签分配策略,DW 对不同的检测头也表现出了良好的泛化性能。

个anchor动态分配单独的pos和neg权重。还开发了一种新的框细化操作来直接细化回归图上的框。 DW 与评估指标高度兼容。 MS COCO benchmark上的实验验证了DW在各种backbone下的有效性。无论是否进行框细化,使用 ResNet-50 的 DW 分别实现了 41.5 AP 和 42.2 AP,创下了新的最先进水平。作为一种新的标签分配策略,DW 对不同的检测头也表现出了良好的泛化性能。

物体检测的负面社会影响主要源于军事应用的滥用和隐私问题,在将该技术应用于现实生活之前需要仔细考虑。

以上文章为作者本人观看过程中对于论文的翻译,如需查看英文版,还请去自行下载英文原版进行查阅。
英文版链接为:https://arxiv.org/pdf/2203.09730.pdf