读《Unifying Short and Long-Term Tracking with Graph Hierarchies》有感

1、主要贡献

在长视频中有效跟踪对象可以解决很多问题，如从未遮挡对象的短期关联到被遮挡然后重新出现在场景中的对象的长期关联，处理这两个任务的方法通常是相互独立和针对特定场景精心设计的，而且性能良好的方法通常是一种混合技术，且仍然难以应对可伸缩性，从而产生缺乏通用性的步骤繁重的解决方案。

本文提出了混合方法的需求，并引入了 SUSHI，这是一种统一且可扩展的多目标跟踪器。通过将长剪辑拆分为子剪辑的层次结构来处理长剪辑，从而实现高可扩展性。利用图神经网络来处理层次结构的所有级别，这使得模型在时间尺度上统一，并且高度通用。

2、介绍

在高度精确的目标检测下，通常数据关联发生在相邻帧之间，即短期关联，简单的线索即可得到较好的结果，但缺乏长期身份保存的鲁棒性

由于遮挡、拥挤等，迫使在遥远的时间帧中执行检测之间的关联，即长期关联，但需要更充分的线索和繁杂的步骤，且可扩展性有限

由于任务性质不同，用于短期关联的解决方案往往在长期场景中失败，大多数最先进的跟踪器使用组合方法来跟踪不同的时间跨度，因此可以被认为是多级跟踪器。但依旧存在两个限制：

（1）可扩展性，当增加要连接的检测之间的时间间隔，由于显著的外观变化和位移，关联变得更加模糊。无法扩展到任意时间跨度；关于图匹配方法，大时间跨度的关联需要创建非常大的图，需要庞大的内存和计算

（2）通用性，对不同的时间跨度使用不同的技术需要对每个时间尺度所需的线索做出强有力的假设，这限制了这些方法的适用性。在不同的场景下适用不同的跟踪器

3、SUSHI

SUSHI由一系列联合训练的 SUSHI 块组成，这些块在视频剪辑中的一组轨迹上分层运行，从初始每帧对象检测(长度为1的轨迹)开始，每个SUSHI块学习从上一层合并轨迹到更长的轨迹，并且共享相同的 GNN 架构和权重，从而使 SUSHI 跨时间尺度统一

为此，每个 SUSHI 块构建一个图，其中节点表示前一层的轨迹，并且边对轨迹假设进行建模。节点和边具有相关的嵌入编码位置、外观，和动作线索，这些线索通过 GNN 在图中传播。经过几个消息传递步骤后，边缘嵌入被分类为正确和不正确的假设，产生了一组新的更长的轨迹。通过分层堆叠几个 SUSHI 块，轨迹逐渐增长为跨越整个输入视频剪辑的最终轨迹。

每个 SUSHI 块中的 GNN 学习利用跨时间跨度相关的关联线索，并结合 SUSHI 块可以有效跟踪长时间范围。

3.1、跟踪图层次结构的构建

依靠单个图跟踪的局限性：（1）长序列的成本非常高，因为它需要考虑二次数量的边或使用复杂的修剪技术。其次，这意味着图中的大多数边将代表不正确的假设

构建分层剪辑分区：

提出一种在长视频剪辑上操作的较小图的层次结构，该层次结构是基于将剪辑递归划分为不重叠的时间窗口或更小的剪辑

在每个连续的层次级别上，只考虑包含在连续帧的小窗口中的轨迹之间的边，确保了我们的轨迹长度在每个级别上相对一致。在层次结构中的每个连续级别之后，将时间相近的轨迹合并为较长的轨迹，然后这些较长的轨迹将成为下层次级别关联的新节点集。

通过递归合并附近帧中的轨迹，逐渐减少每个层次级别之后的节点数量。因此，在层次结构的每个连续级别上可以考虑跨越更长时间跨度的边，而不会过度增加边数，也不会导致严重的标签失衡。

3.2、一个统一的分层跟踪器

SUSHI的核心特点是每个 SUSHI 块使用相同的架构，并且可以访问相同的特征源。这与之前为不同级别设计不同解决方案的工作形成对比。该方法不是对在每个时间跨度执行关联所需的线索做出假设，而是让每个层次结构中的 SUSHI 块从数据中学习

SUSHI块

(1)考虑一个带有轨迹的图作为定义的节点

(2)通过消息传递在图中传播节点和边缘嵌入

(3)执行边缘分类，将节点(即轨迹)合并到更长的轨迹中。

边缘关联线索

通过将连接的成对关联特征的初始向量馈送到轻量级多层感知 $MLP_{edge}$ 来计算每个 SUSHI 块中的 GNN 的输入边缘嵌入

对于外观考虑轨迹中所有检测上的平均嵌入向量，这比单个检测更稳健

权重共享

SUSHI 块在每个层次结构级别使用相同的 GNN 架构，因此可以在每个 SUSHI 块的 GNN 之间共享参数和可学习权重，通过在级别之间共享权重，可以从来自多个层次结构级别的数据中受益，提升了 GNN 拥有的训练样本数量

3、消融实验

主要探索两方面：（1）使用不同级别层次结构的统一方法进行数据关联的优势（2）模型能够扩展到长视频剪辑。

混合与统一的多层次方法比较

分析了混合多级方法和统一的基于 GNN 的方法之间的性能差异。考虑四个关联时间范围 25、75、150 和 512 帧，并分析每种方法在每个时间范围内的优势

表明统一方法的好处适用于高达 75 帧的中等时间跨度，在长达 150 帧的较长时间范围内执行关联混合多级方法并没有显著体现出性能提升，而9级层次结构导致更好的跟踪性能

整体图上层次结构的潜力

通过量化不同层次结构下实现每个分数所需的边总数和正确边假设的相应比率（即圆形区域），可以观察得，在固定内存预算下，分层图的得分明显更高，同时标签不平衡明显不那么严重，即更大的圆圈区域，表明进行学习将明显更容易，同时分数在大约九个层次结构级别饱和

剪辑长度和层次结构级别的影响

当增加层次结构级别和剪辑长度时可视化了对身份保存 (IDF1) 的影响，从而结合了长期关联场景

以非分层方式增加剪辑长度，即使用单个级别，将会在超过中等长度（≥32 帧）时损害性能。相反，给定固定的剪辑大小，将层次结构级别的数量增加到 9 会产生所有剪辑长度的单调改进

不同层次特征的重要性

本文GNN利用了三种主要的特征模式:位置、外观和运动。该图展示了 SUSHI 在每个层次结构级别以不同的方式利用关联线索的能力。通过量化在单个级别上从每种类型中删除边缘特征获得的性能损失，从完全删除每个模态的特征开始，同时保持其他模态不变（第一列），从最低级别开始的连续级别上依次添加目标类型的特征。

我们观察到外观的影响最大，但它主要用于后期层次结构级别，例如当禁用外观，第 7-9 层次的 IDF1 为-3.9，而第 1-3 层次的 IDF1 为-1.2

运动在各个级别上都有适度但统一的影响，而位置信息仅与短期关联相关，影响不大

4、结论

SUSHI是一种跨多个时间跨度跟踪的统一方法。通过消融研究展示了两个主要特征的明显好处：（1）在时间尺度上的统一性质（2）扩展到长视频剪辑的能力。此外，基准结果也证明能够在高度多样化的跟踪场景中显着推进最先进的技术，从而证明了它的通用性