LightGlue: Local Feature Matching at Light Speed

引用格式：Lindenberger P, Sarlin P E, Pollefeys M. LightGlue: Local Feature Matching at Light Speed[J]. arXiv preprint arXiv:2306.13643, 2023.

论文下载：下载链接

开源代码：代码链接

参考：LightGlue: Local Feature Matching at Light Speed - 知乎

一、瓶颈问题：

对于LightGlue的前身SuperGlue，SuperGlue与其他基于 Transformer 的模型一样难以训练，需要许多从业者无法访问的计算资源。因此，后续工作未能达到原始SuperGlue模型的性能。
在展现对称性、弱纹理或因视角和光照变化而导致外观变化的条件下，可靠地描述每个点是具有挑战性的。为了排除由于遮挡和丢失点而产生的异常值，这些表示还应具有辨别性。这导致了两个冲突的目标，即鲁棒性和唯一性，这两者很难同时满足。

二、本文贡献：

设计了LightGlue深度网络，在准确性、效率和训练易用性方面优于现有的SuperGlue。通过对架构进行简单而有效的修改，提出了训练高性能深度特征匹配器的方法。
LightGlue具有自适应的特性，可以根据图像对的难度进行灵活调整。通过预测对应关系并允许模型自省，可以在易于匹配的图像对上实现更快的推理速度，而在具有挑战性的图像对上仍然保持准确性。

三、解决方案：

1、整体架构

整体架构如上图所示，LightGlue是基于SuperGlue的，它预测从图像A和B提取的局部特征集之间的部分匹配关系。LightGlue由L个相同的层组成，这些层共同处理两个特征集合。每个层由自注意力和交叉注意力单元组成，用于更新每个点的表示。然后，一个分类器在每个层次上决定是否停止推理，从而避免不必要的计算。最后，一个轻量级的head从这些表示中计算出部分匹配。

2、输入/输出及 Transformer backbone

输入：两个图像上的局部特征 i ，由2D点位置 $p_{i}: = (x, y), i in [0, 1]^{2}$ (图像大小进行了归一化)和视觉描述符 $d_{i} in R^{d}$ 组成。

输出：一组对应关系M = {(i, j)} ?A × B。可以在A和B中的局部特征之间求soft partial assignment matrix（软部分分配矩阵） $P in [0, 1]^{M imes N}$ ，可以从中提取图像的对应关系。

backbone：将图像中的每个局部特征i与状态 $x_{i}^{I} in R^{d}$ 关联。状态由视觉描述符进行初始化。每个层由一个自注意力单元和一个交叉注意力单元组成。

3、注意力单元

在每个单元中，多层感知器（MLP）在给定从源图像S ∈（A, B）聚合的消息 $m_{i}^{Ileftarrow S}$ 的情况下更新状态。

[·|·]:堆叠两个向量。用于并行计算两个图像中所有的点

该消息注意力机制计算为图像 S 的所有状态 j 的加权值

W 是投影矩阵

$a_{ij}^{IS}$ 是图像 I 和 S 的点 i 和 j 之间的注意力分数

4、自注意力

每个点关注同一图像的所有点。对于每一个特征点 i ，先通过不同的线性变换将当前状态 $x_{i}$ 分解为键向量和查询向量 $k_{i}$ 和 $q_{i}$ ，使用旋转编码R来定义点i和j之间的注意力得分 $a_{ij}$ ，以捕捉它们的相对位置：

$R(cdot ) in R^{d imes d}$ ：点之间相对位置的旋转编码。

通过将空间分割为d/2个2D子空间，并进行旋转投影到可学习的基向量上 $(b_{k} in R^{2})$ ，实现了位置编码。旋转编码使模型能够检索到具有学习到的相对位置的点。这种编码在所有层中都是相同的，并且只计算一次并缓存。

5、交叉注意力

每个图像中的点都会关注另一个图像中的所有点。论文为每个元素计算一个键，但没有query。双向注意力得分为：

由于相对位置在图像间没有意义，论文不添加位置信息。

6、特征匹配关系预测

论文设计了一个轻量级的头，在给定任何层的更新状态的情况下预测分配。

Assignment scores（分配分数）

首先计算两幅图像点之间的成对得分矩阵 $Sin R^{M imes N}$ 。

表示每对点成为对应关系的亲合度

另外，论文计算了每个点的可匹配性

表示是否可以匹配成功

Correspondences

将相似性和可匹配性分数组合成一个soft partial assignment matrix（软部分分配矩阵） P

当点 i 和点 j 都被判定为可匹配点，并且它们之间的相似度高于阈值 τ，同时也高于两个图像中所有其他点之间的相似度时，我们认为点对 (i, j) 是对应关系。

7、Adaptive depth and width（自适应深度和宽度）

为了避免不必要的计算，减少推理时间，提出了Adaptive depth and width，主要在以下两方面：

（1）减少Transformer的计算层数，每一层结束都会推断计算一个confidence，决定一些点更可能的匹配。通过退出机制Exit criterion，一定数量的confident点达到设定比例，则退出，这里是认为可以进行匹配结果输出了。

Confidence classifier

Exit criterion

对于给定的层?，如果 $c_{i}^{I} > lambda _{varrho }$ ，则该点被认为是自信的。如果所有点的充分比率 α 有信心，会停止推理。

另外由于分类器本身在早期层中不太有信心，论文根据每个分类器的验证精度在整个层中衰减 $lambda _{xi }$ 。

（2）早期直接剪枝拒绝掉一些不匹配的点，不满足退出条件，但是 both confident and unmatchable （确信不匹配）的点，会被忽略，不参与后期的匹配。

8、Loss设计

损失函数由三部分组成，分别对应于正确匹配（positive labels）和不匹配的点（negative labels）。

第一部分：对正确匹配的点(i, j) ∈ M，计算预测的对应关系 $^{_{}^{ell} extrm {}}P_{ij}$ 的对数似然损失，其中 ? 是层次信息， $P_{ij}$ 是预测的分配矩阵中的元素。

第二部分：对于标记为不可匹配的 $ar{A} subseteq A$ ，计算预测的不可匹配性分数 $1-_{}^{ell} extrm{}sigma _{i}^{A}$ 的对数似然损失，其中 $sigma _{i}^{A}$ 是点 i 的可匹配性分数。

第三部分：对于标记为不可匹配的 $ar{B} subseteq B$ ，计算预测的不可匹配性分数 $1-_{}^{ell} extrm{}sigma _{i}^{B}$ 的对数似然损失，其中 $sigma _{i}^{B}$ 是点 j 的可匹配性分数。

四、实验结果：

LightGlue 架构极大地提高了预训练在合成单应性上的收敛速度。在 5M 图像（只有 2 个 GPU 天）之后，LighGlue 在最后一层实现了 -33% 的损失，匹配召回率+4%。SuperGlue 需要超过 7 天的训练才能达到类似的准确度。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

重投影误差在1像素和5像素的比较： LightGlue 产生与 SuperGlue 和 SGMNet 更高的精度和相似的召回率的对应关系。在使用 DLT 估计单应性时，这会导致比其他匹配器更准确的估计。因此，LightGlue 使 DLT 成为一个简单的求解器，与昂贵且较慢的 MAGSAC竞争。在5px的粗阈值下，尽管受到稀疏关键点的限制，LightGlue也比LoFTR更准确。

RANSAC：RANSAC是一种经典的鲁棒估计算法，常用于估计基本矩阵、单应矩阵等模型参数。它通过随机采样和迭代的方式，从数据中选择一组假设的内点集合，然后通过这个内点集合来估计模型参数。RANSAC的主要思想是假设大部分数据是噪声或异常值，通过随机采样和模型验证的过程，寻找最佳的内点集合，从而得到准确的模型参数估计。

DLT：DLT是指直接线性变换（Direct Linear Transform）方法，用于估计单应矩阵或其他几何变换的参数。它基于线性代数的原理，通过将图像中的点对应到世界坐标系中的点，建立齐次线性方程组，然后使用最小二乘法或奇异值分解等方法求解方程组，从而得到准确的变换参数。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

相对位姿估计

"DISK" 和 "SuperPoint" 代表了两种不同的特征检测器和描述符提取器

较高的AUC值表示估计的单应矩阵具有较高的准确性和预测能力。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

户外视觉定位

LightGlue达到了与SuperGlue相似的准确性，但吞吐量高出2.5倍。经过优化的变体利用高效的自注意力机制，将吞吐量提高了4倍。因此，LightGlue可以实时匹配多达4096个关键点。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

合成单应性的消融研究

a-b) 匹配性和位置编码都提高了准确性，而不会对时间产生影响。c) 双向交叉注意力更快，而不会降低准确性。d) 由于深度监督，早期层对难度低的图像对产生良好的预测。

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

运行时间和关键点数量