在这项工作中,我们研究了最近提出的分割任何模型(SAM)是否可以很好地推广到涉及俯视图像的任务。我们在8个数据集上对SAM进行了评估。对于每个基准测试,我们研究了SAM在两个重要的潜在应用场景中的性能:模型组合(COMP)和交互式分割(INTER)。
模型组合(COMP)
具体来说,我们假设SAM是由单个点p或由其他视觉模型产生的边界框b提示的。SAM的目标是基于这些更简单但可能不完美的提示生成准确的实例掩码。为了模拟期望的基于模型的提示,我们训练U-Net模型来生成边界框提示,并且我们使用来自每个基准的真实标签来生成基于点的提示。我们的实验设计如图3所示。我们为每个基准数据集训练了一个U-Net分割模型,标记为U-Net(ours)。
请注意,我们的大多数基准测试都有类级分割标签(与实例级相反),因此我们训练我们的模型来预测类级掩码。我们还报告了最新的最先进的(SOTA) U-net模型的IoU,表示为U-net (SOTA)。
边界框提示。基于U-Net(我们的)模型的类级掩码输出,我们提取实例级边界框,然后用它来提示SAM。这是通过将U-Net输出中的每个连接组件视为实例级掩码来实现的。然后,对于每个实例级掩码,我们计算包含它的最小边界框,并使用结果框提示SAM。从这些提示符中,SAM生成实例级掩码预测,通过对所有实例级掩码预测进行并集来生成单个类级掩码。
点提示。我们的基于点的提示是使用每个基准数据集可用的真实值标签生成的。我们将底层真值掩码中的连接组件视为实例级掩码。在每个蒙版中,我们生成两个点提示:一个是在蒙版中随机选择一个点,另一个是在蒙版中选择中心点。
我们只使用随机点对SAM的性能进行一次评分,只使用中心点对SAM的性能进行一次评分。当SAM得到一个单点提示时,它会产生三个候选掩码,将IoU预测值最高的掩码作为预测返回,通过对所有实例级掩码预测进行并集来生成单个类级掩码。
我们的合成实验结果如图4所示。结果表明,特定任务的监督模型几乎总是获得最高的IoU。这并不奇怪,因为这些模型是使用大量特定于任务的分割掩码训练的。U-Net (SOTA)模型的性能总是优于U-Net(ours),这反映了针对每个基准测试在其专门设计上投入的额外努力。因此,监督模型的IoU代表了使用开箱即用的当代视觉模型(在U-Net(ours)的情况下)和具有重大设计投资的当代视觉模型(在U-Net (SOTA)模型的情况下)可以实现的性能。而且点提示的位置(中心与随机)对结果的影响很小。其中SAM的性能也总是不如监督模型,并且信息较少的提示表现更差。然而,我们在这里强调了我们的研究结果中的一些关键差异。
我们发现的一个关键区别是,在我们的大多数基准测试中,SAM和监督模型之间的性能差距明显更大。这在最大和最广泛研究的基准目标对象(如建筑物和道路)上尤其明显。我们猜测这反映了SAM对自然图像中的物体的偏见。比如建筑类是高度复杂的(例如,建筑物通常很大,并且包含许多类似对象的子组件),因此它们可能无法使用基于自然图像推断的通用“对象性”概念来很好地表征。SAM的性能在很大程度上取决于对象的规模。最后,我们看到SAM在公路类上实现了较低的性能,并且总体性能较低。这突出了开销图像中一些目标类的主要挑战,其中对象实例的概念没有定义好。我们将在第6节进一步讨论这个问题。
在大多数情况下,与监督模型相比,SAM的表现相对较差,特别是重型工程模型(例如,在建筑物和云上),有时它完全失败(例如,道路)。通过对开销图像类(例如,建筑物、云、土地使用)上的SAM进行微调,或者在实例概念定义不清的情况下(例如,道路),通过生成类级分割而不是实例级分割,可以克服许多这些挑战。
交互式分割(INTER) 与交互式模型的对比
此部分 box是通过label生成的,上一节是通过一个另外的模型产生的box。
单点提示。与上一节完全相同的过程来生成点提示符,只是人类注释者可以评估每个候选掩码的IoU,我们选择三个中具有最高IoU的那个作为输出掩码。
交互式点提示。这个实验的目标是模拟一个交互式的点提示场景,在这个场景中,一个人类注释者提供一系列的点提示,每个点都用来改进使用前面所有提示生成的掩码。具体来说,我们首先用一个初始点来提示SAM,下一个点提示符是通过以下过程生成的:我们确定最大的连续错误区域(假阳性或假阴性),然后在该区域的中心产生一个点提示符。点提示符还分配了一个数字,该数字输入到SAM中,表示该点是否对应于假阴性或假阳性区域。
结果表明,SAM的IoU随着提示信息信息量的减小而减小,其中边界框信息量最大,随机中心点信息量最小。SAM似乎对提示点是居中还是随机不敏感。我们还发现,SAM几乎总是优于RITM,而且常常有相当大的优势。
实例分割有时是病态的。SAM设计用于执行对象实例分割,但是,图像中的某些类可能无法以这种方式很好地概念化。从根本上说,如果目标类的实例没有明确的定义,或者在不同的地理位置或应用领域中定义的差异很大,就会出现这个问题。一个例子是道路,因为道路是空间上连接在非常大的地理区域上的大型物体。因此,如何定义一个道路实例何时结束,另一个何时开始是不清楚的。因此,在我们所有的实验中,SAM在道路分割任务上的表现一直很差(IoU<10),而经过类级分割训练的模型则没有这些问题。这个问题可以通过对sam解码器进行微调来解决,以便为某些更合适的类生成类级别的分段掩码。