引用格式:Lindenberger P, Sarlin P E, Pollefeys M. LightGlue: Local Feature Matching at Light Speed[J]. arXiv preprint arXiv:2306.13643, 2023.
论文下载:下载链接
开源代码:代码链接
参考:LightGlue: Local Feature Matching at Light Speed - 知乎
一、瓶颈问题:
- 对于LightGlue的前身SuperGlue,SuperGlue与其他基于 Transformer 的模型一样难以训练,需要许多从业者无法访问的计算资源。因此,后续工作未能达到原始SuperGlue模型的性能。
- 在展现对称性、弱纹理或因视角和光照变化而导致外观变化的条件下,可靠地描述每个点是具有挑战性的。为了排除由于遮挡和丢失点而产生的异常值,这些表示还应具有辨别性。这导致了两个冲突的目标,即鲁棒性和唯一性,这两者很难同时满足。
二、本文贡献:
- 设计了LightGlue深度网络,在准确性、效率和训练易用性方面优于现有的SuperGlue。通过对架构进行简单而有效的修改,提出了训练高性能深度特征匹配器的方法。
- LightGlue具有自适应的特性,可以根据图像对的难度进行灵活调整。通过预测对应关系并允许模型自省,可以在易于匹配的图像对上实现更快的推理速度,而在具有挑战性的图像对上仍然保持准确性。
三、解决方案:
1、整体架构
整体架构如上图所示,LightGlue是基于SuperGlue的,它预测从图像A和B提取的局部特征集之间的部分匹配关系。LightGlue由L个相同的层组成,这些层共同处理两个特征集合。每个层由自注意力和交叉注意力单元组成,用于更新每个点的表示。然后,一个分类器在每个层次上决定是否停止推理,从而避免不必要的计算。最后,一个轻量级的head从这些表示中计算出部分匹配。
2、输入/输出 及 Transformer backbone
输入:两个图像上的局部特征 i ,由2D点位置(图像大小进行了归一化)和视觉描述符组成。
输出:一组对应关系M = {(i, j)} ?A × B。可以在A和B中的局部特征之间求soft partial assignment matrix(软部分分配矩阵),可以从中提取图像的对应关系。
backbone:将图像中的每个局部特征i与状态关联。状态由视觉描述符进行初始化。每个层由一个自注意力单元和一个交叉注意力单元组成。
3、注意力单元
在每个单元中,多层感知器(MLP)在给定从源图像S ∈(A, B)聚合的消息的情况下更新状态。
[·|·]:堆叠两个向量。用于并行计算两个图像中所有的点
该消息注意力机制计算为图像 S 的所有状态 j 的加权值
W 是投影矩阵
是图像 I 和 S 的点 i 和 j 之间的注意力分数
4、自注意力
每个点关注同一图像的所有点。对于每一个特征点 i ,先通过不同的线性变换将当前状态分解为键向量和查询向量和,使用旋转编码R来定义点i和j之间的注意力得分,以捕捉它们的相对位置:
:点之间相对位置的旋转编码。
通过将空间分割为d/2个2D子空间,并进行旋转投影到可学习的基向量上,实现了位置编码。旋转编码使模型能够检索到具有学习到的相对位置的点。这种编码在所有层中都是相同的,并且只计算一次并缓存。
5、交叉注意力
每个图像中的点都会关注另一个图像中的所有点。论文为每个元素计算一个键,但没有query。双向注意力得分为:
由于相对位置在图像间没有意义,论文不添加位置信息。
6、特征匹配关系预测
论文设计了一个轻量级的头,在给定任何层的更新状态的情况下预测分配。
Assignment scores(分配分数)
首先计算两幅图像点之间的成对得分矩阵 。
表示每对点成为对应关系的亲合度
另外,论文计算了每个点的可匹配性
表示是否可以匹配成功
Correspondences
将相似性和可匹配性分数组合成一个soft partial assignment matrix(软部分分配矩阵) P
当点 i 和点 j 都被判定为可匹配点,并且它们之间的相似度高于阈值 τ,同时也高于两个图像中所有其他点之间的相似度时,我们认为点对 (i, j) 是对应关系。
7、Adaptive depth and width(自适应深度和宽度)
为了避免不必要的计算,减少推理时间,提出了Adaptive depth and width,主要在以下两方面:
(1)减少Transformer的计算层数,每一层结束都会推断计算一个confidence,决定一些点更可能的匹配。通过退出机制Exit criterion,一定数量的confident点达到设定比例,则退出,这里是认为可以进行匹配结果输出了。
Confidence classifier
Exit criterion
对于给定的层?,如果,则该点被认为是自信的。如果所有点的充分比率 α 有信心,会停止推理。
另外由于分类器本身在早期层中不太有信心,论文根据每个分类器的验证精度在整个层中衰减。
(2)早期直接剪枝拒绝掉一些不匹配的点,不满足退出条件,但是 both confident and unmatchable (确信不匹配)的点,会被忽略,不参与后期的匹配。
8、Loss设计
损失函数由三部分组成,分别对应于正确匹配(positive labels)和不匹配的点(negative labels)。
第一部分:对正确匹配的点(i, j) ∈ M,计算预测的对应关系 的对数似然损失,其中 ? 是层次信息,是预测的分配矩阵中的元素。
第二部分:对于标记为不可匹配的,计算预测的不可匹配性分数的对数似然损失,其中是点 i 的可匹配性分数。
第三部分:对于标记为不可匹配的,计算预测的不可匹配性分数的对数似然损失,其中 是点 j 的可匹配性分数。
四、实验结果:
LightGlue 架构极大地提高了预训练在合成单应性上的收敛速度。在 5M 图像(只有 2 个 GPU 天)之后,LighGlue 在最后一层实现了 -33% 的损失,匹配召回率+4%。SuperGlue 需要超过 7 天的训练才能达到类似的准确度。
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
重投影误差在1像素和5像素的比较: LightGlue 产生与 SuperGlue 和 SGMNet 更高的精度和相似的召回率的对应关系。在使用 DLT 估计单应性时,这会导致比其他匹配器更准确的估计。因此,LightGlue 使 DLT 成为一个简单的求解器,与昂贵且较慢的 MAGSAC竞争。在5px的粗阈值下,尽管受到稀疏关键点的限制,LightGlue也比LoFTR更准确。
RANSAC:RANSAC是一种经典的鲁棒估计算法,常用于估计基本矩阵、单应矩阵等模型参数。它通过随机采样和迭代的方式,从数据中选择一组假设的内点集合,然后通过这个内点集合来估计模型参数。RANSAC的主要思想是假设大部分数据是噪声或异常值,通过随机采样和模型验证的过程,寻找最佳的内点集合,从而得到准确的模型参数估计。
DLT:DLT是指直接线性变换(Direct Linear Transform)方法,用于估计单应矩阵或其他几何变换的参数。它基于线性代数的原理,通过将图像中的点对应到世界坐标系中的点,建立齐次线性方程组,然后使用最小二乘法或奇异值分解等方法求解方程组,从而得到准确的变换参数。
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
相对位姿估计
"DISK" 和 "SuperPoint" 代表了两种不同的特征检测器和描述符提取器
较高的AUC值表示估计的单应矩阵具有较高的准确性和预测能力。
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
户外视觉定位
LightGlue达到了与SuperGlue相似的准确性,但吞吐量高出2.5倍。经过优化的变体利用高效的自注意力机制,将吞吐量提高了4倍。因此,LightGlue可以实时匹配多达4096个关键点。
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
合成单应性的消融研究
a-b) 匹配性和位置编码都提高了准确性,而不会对时间产生影响。c) 双向交叉注意力更快,而不会降低准确性。d) 由于深度监督,早期层对难度低的图像对产生良好的预测。
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
运行时间和关键点数量