LightGlue: Local Feature Matching at Light Speed

引用格式:Lindenberger P, Sarlin P E, Pollefeys M. LightGlue: Local Feature Matching at Light Speed[J]. arXiv preprint arXiv:2306.13643, 2023.
论文下载:下载链接
开源代码:代码链接

参考:LightGlue: Local Feature Matching at Light Speed - 知乎

一、瓶颈问题:

  1. 对于LightGlue的前身SuperGlue,SuperGlue与其他基于 Transformer 的模型一样难以训练,需要许多从业者无法访问的计算资源。因此,后续工作未能达到原始SuperGlue模型的性能。
  2. 展现对称性、弱纹理或因视角和光照变化而导致外观变化的条件下,可靠地描述每个点是具有挑战性的。为了排除由于遮挡和丢失点而产生的异常值,这些表示还应具有辨别性。这导致了两个冲突的目标,即鲁棒性和唯一性,这两者很难同时满足。

二、本文贡献:

  1. 设计了LightGlue深度网络,在准确性、效率和训练易用性方面优于现有的SuperGlue。通过对架构进行简单而有效的修改,提出了训练高性能深度特征匹配器的方法。
  2. LightGlue具有自适应的特性,可以根据图像对的难度进行灵活调整。通过预测对应关系并允许模型自省,可以在易于匹配的图像对上实现更快的推理速度,而在具有挑战性的图像对上仍然保持准确性。

三、解决方案:

1、整体架构

    整体架构如上图所示,LightGlue是基于SuperGlue的,它预测从图像A和B提取的局部特征集之间的部分匹配关系。LightGlue由L个相同的层组成,这些层共同处理两个特征集合。每个层由自注意力和交叉注意力单元组成,用于更新每个点的表示。然后,一个分类器在每个层次上决定是否停止推理,从而避免不必要的计算。最后,一个轻量级的head从这些表示中计算出部分匹配

2、输入/输出 及 Transformer backbone

    输入:两个图像上的局部特征 i ,由2D点位置p_{i}: = (x, y), i in [0, 1]^{2}(图像大小进行了归一化)和视觉描述符d_{i} in R^{d}组成。

    输出:一组对应关系M = {(i, j)} ?A × B。可以在A和B中的局部特征之间求soft partial assignment matrix(软部分分配矩阵)P in [0, 1]^{M	imes N},可以从中提取图像的对应关系。

    backbone:将图像中的每个局部特征i与状态x_{i}^{I} in R^{d}关联。状态由视觉描述符进行初始化。每个层由一个自注意力单元和一个交叉注意力单元组成。

3、注意力单元

    在每个单元中,多层感知器(MLP)在给定从源图像S ∈(A, B)聚合的消息m_{i}^{Ileftarrow S}的情况下更新状态

[·|·]:堆叠两个向量。用于并行计算两个图像中所有的点

该消息注意力机制计算为图像 S 的所有状态 j 的加权值

W 是投影矩阵

a_{ij}^{IS}是图像 I 和 S 的点 i 和 j 之间的注意力分数

4、自注意力

    每个点关注同一图像的所有点。对于每一个特征点 i ,先通过不同的线性变换将当前状态x_{i}分解为键向量和查询向量k_{i}q_{i},使用旋转编码R来定义点i和j之间的注意力得分a_{ij},以捕捉它们的相对位置:

R(cdot ) in R^{d	imes d}:点之间相对位置的旋转编码。

    通过将空间分割为d/2个2D子空间,并进行旋转投影到可学习的基向量上(b_{k} in R^{2}),实现了位置编码。旋转编码使模型能够检索到具有学习到的相对位置的点。这种编码在所有层中都是相同的,并且只计算一次并缓存

5、交叉注意力

    每个图像中的点都会关注另一个图像中的所有点。论文为每个元素计算一个键,但没有query。双向注意力得分为:

    由于相对位置在图像间没有意义,论文不添加位置信息。

6、特征匹配关系预测

    论文设计了一个轻量级的头,在给定任何层的更新状态的情况下预测分配。

Assignment scores(分配分数)

    首先计算两幅图像点之间的成对得分矩阵 Sin R^{M	imes N}

表示每对点成为对应关系的亲合度

    另外,论文计算了每个点的可匹配性

表示是否可以匹配成功

Correspondences

    将相似性和可匹配性分数组合成一个soft partial assignment matrix(软部分分配矩阵) P

    当点 i 和点 j 都被判定为可匹配点,并且它们之间的相似度高于阈值 τ,同时也高于两个图像中所有其他点之间的相似度时,我们认为点对 (i, j) 是对应关系。

7、Adaptive depth and width(自适应深度和宽度)

    为了避免不必要的计算,减少推理时间,提出了Adaptive depth and width,主要在以下两方面:

(1)减少Transformer的计算层数,每一层结束都会推断计算一个confidence,决定一些点更可能的匹配。通过退出机制Exit criterion,一定数量的confident点达到设定比例,则退出,这里是认为可以进行匹配结果输出了。

Confidence classifier

Exit criterion

对于给定的层?,如果c_{i}^{I} > lambda _{varrho },则该点被认为是自信的。如果所有点的充分比率 α 有信心,会停止推理。

另外由于分类器本身在早期层中不太有信心,论文根据每个分类器的验证精度在整个层中衰减lambda _{xi }

(2)早期直接剪枝拒绝掉一些不匹配的点,不满足退出条件,但是 both confident and unmatchable (确信不匹配)的点,会被忽略,不参与后期的匹配。

8、Loss设计

    损失函数由三部分组成,分别对应于正确匹配(positive labels)和不匹配的点(negative labels)。

    第一部分:对正确匹配的点(i, j) ∈ M,计算预测的对应关系 ^{_{}^{ell}	extrm {}}P_{ij}的对数似然损失,其中 ? 是层次信息,P_{ij}是预测的分配矩阵中的元素。

    第二部分:对于标记为不可匹配的ar{A} subseteq A,计算预测的不可匹配性分数1-_{}^{ell}	extrm{}sigma _{i}^{A}的对数似然损失,其中sigma _{i}^{A}是点  i  的可匹配性分数。

    第三部分:对于标记为不可匹配的ar{B} subseteq B,计算预测的不可匹配性分数1-_{}^{ell}	extrm{}sigma _{i}^{B}的对数似然损失,其中sigma _{i}^{B} 是点 j 的可匹配性分数。

四、实验结果:

    LightGlue 架构极大地提高了预训练在合成单应性上的收敛速度。在 5M 图像(只有 2 个 GPU 天)之后,LighGlue 在最后一层实现了 -33% 的损失,匹配召回率+4%。SuperGlue 需要超过 7 天的训练才能达到类似的准确度。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

    重投影误差在1像素和5像素的比较: LightGlue 产生与 SuperGlue 和 SGMNet 更高的精度和相似的召回率的对应关系。在使用 DLT 估计单应性时,这会导致比其他匹配器更准确的估计。因此,LightGlue 使 DLT 成为一个简单的求解器,与昂贵且较慢的 MAGSAC竞争。在5px的粗阈值下,尽管受到稀疏关键点的限制,LightGlue也比LoFTR更准确。

    RANSAC:RANSAC是一种经典的鲁棒估计算法,常用于估计基本矩阵、单应矩阵等模型参数。它通过随机采样和迭代的方式,从数据中选择一组假设的内点集合,然后通过这个内点集合来估计模型参数。RANSAC的主要思想是假设大部分数据是噪声或异常值,通过随机采样和模型验证的过程,寻找最佳的内点集合,从而得到准确的模型参数估计。

    DLT:DLT是指直接线性变换(Direct Linear Transform)方法,用于估计单应矩阵或其他几何变换的参数。它基于线性代数的原理,通过将图像中的点对应到世界坐标系中的点,建立齐次线性方程组,然后使用最小二乘法或奇异值分解等方法求解方程组,从而得到准确的变换参数。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

相对位姿估计

"DISK" 和 "SuperPoint" 代表了两种不同的特征检测器和描述符提取器

较高的AUC值表示估计的单应矩阵具有较高的准确性和预测能力

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

户外视觉定位

    LightGlue达到了与SuperGlue相似的准确性,但吞吐量高出2.5倍。经过优化的变体利用高效的自注意力机制,将吞吐量提高了4倍。因此,LightGlue可以实时匹配多达4096个关键点。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

合成单应性的消融研究

    a-b) 匹配性和位置编码都提高了准确性,而不会对时间产生影响。c) 双向交叉注意力更快,而不会降低准确性。d) 由于深度监督,早期层对难度低的图像对产生良好的预测。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

运行时间和关键点数量