Vision Language Models in Autonomous Driving and Intelligent Transportation Systems

摘要
- 1.介绍
- 2.背景
- - A. Autonomous Driving
  - B. Intelligent Transportation Systems
  - C. Large Language Models
  - D. Vision-Language Models
- 3.自动驾驶中的VLMS
- - A. Perception and Understanding
  - B. Navigation and Planning
  - C. Decision-Making and Control
  - D. End-to-End Autonomous Driving
  - E. Data Generation
- 4.智能交通系统中的VLMS
- - A. ITS Perception and Understanding
  - B. ITS Management System
  - C. Potential Applications
- 5.数据集
- - A. Autonomous Driving Dataset
  - B. Language-Enhanced AD Dataset
  - C. Language-Enhanced ITS Dataset
- 6.讨论
- 总结

摘要

视觉语言模型（VLM）在自动驾驶（AD）和智能交通系统（ITS）领域的应用由于其出色的性能和利用大型语言模型（LLM）的能力而引起了广泛的关注。通过整合语言数据，车辆和交通系统能够深入了解现实世界的环境，提高驾驶安全性和效率。在这项工作中，我们提出了一个全面的调查在这一领域的语言模型的进展，包括当前的模型和数据集。此外，我们还探讨了潜在的应用和新兴的研究方向。最后，我们深入讨论了挑战和研究差距。本文旨在为研究者提供目前的工作和未来的发展趋势的VLM在AD和ITS。

索引术语-视觉语言模型，大语言模型，自动驾驶，智能交通系统。

1.介绍

智能移动在现代文明中非常重要，可以推动经济增长，支持城市发展，加强社会联系。近年来，深度学习和计算能力的快速发展深刻影响了交通运输，提高了其效率和智能。智能移动的两个核心新兴领域是自动驾驶（AD）和智能交通系统（ITS）。

自动驾驶致力于使车辆能够感知环境并智能驾驶。当前的自动驾驶技术，特别是与感知和预测相关的技术，极大地受益于计算机视觉的进步。例如，感知模块通常使用卷积神经网络（CNN）或变压器[1]处理来自相机或激光雷达等传感器的数据，以准确识别和定位周围环境中的实体。然而，尽管有这些技术进步，目前的计算机视觉解决方案仍然在复杂和快速动态的环境中挣扎。它们通常无法捕捉复杂的细节或理解上下文，导致潜在的安全问题，并限制了向更先进的自动驾驶的发展。另一方面，智能交通系统旨在提高交通安全性和流动性，但尽管多年来其效率和可靠性有所提高，但挑战依然存在。例如，实时交通流量预测容易受到各种环境因素的影响，如天气、碰撞事件或道路建设。

LLM [2]-[6]和VLM [7]-[12]的出现为当前自动驾驶和智能交通系统的固有局限性提供了潜在的解决方案。这些新技术综合了语言和视觉数据，有望在未来让车辆和系统深入了解周围环境。这预示着一个智能、高效和可解释的交通新时代的到来。除了增强AD或ITS中的传统任务（如目标检测或交通流预测）外，新兴领域还包括零射击感知和事故分析，如图1所示。鉴于将语言模型应用于自动驾驶和智能系统的研究激增，系统和全面的调查对研究界至关重要。然而，现有的调查[12]-[16]分别关注LLM，VLM，AD或ITS。据我们所知，目前还没有系统地讨论VLM在AD和ITS中的应用。
在这里插入图片描述
Fig. 1.视觉语言模型和大型语言模型为传统任务提供了进步，并为AD和ITS中的创新应用铺平了道路。

为此，我们对自动驾驶和智能交通系统中视觉语言模型的现有算法进行了回顾，突出了研究界最近的技术趋势。我们在图2中说明了本文的分类。本论文的主要贡献可以概括如下：

·首次全面综述了视觉语言模型在自动驾驶和智能交通系统中的应用。
·我们系统地总结和分析了现有的工作和数据集。
·我们探索VLM在AD和ITS中的潜在应用和技术进步。
·我们对该领域的挑战和研究差距进行了深入讨论。

图二.自动驾驶和智能交通系统中VLM的分类概述。

2.背景

本节将全面介绍相关背景，深入研究这些技术的基本概念：自动驾驶（II-A），智能交通系统（II-B），大型语言模型（II-C）和视觉语言模型（II-D）。

A. Autonomous Driving

自动驾驶的目标是开发能够在没有人为干预的情况下导航和控制自己的车辆，减少事故并提高交通效率。汽车工程师协会定义的驾驶自动化级别从0级（无自动化）到5级（全自动化）。随着自动化程度的提高，人类干预减少，而车辆了解周围环境的要求增加。目前，大多数商用车处于2级或3级，提供部分自动化，但仍需要驾驶员监督。

现有的自动驾驶解决方案可以大致分为经典的模块化模式和端到端方法。然而，如[13]所述，这些方案都面临着严重的挑战，如可解释性，泛化，因果混淆，鲁棒性等，研究人员试图使用各种方法来解决这些问题，但构建一个安全，稳定和可解释的AD系统仍然是一个开放的话题。

B. Intelligent Transportation Systems

智能交通系统（ITS）采用先进技术，通过优化更广泛的交通环境来提高交通效率和安全性。通过整合来自道路传感器和道路使用者等各种来源的实时数据，ITS涵盖了广泛的服务和应用，从自适应交通信号控制到实时交通监控、事故检测和预测、交通流量预测以及协作车辆基础设施系统。尽管随着传感、通信和机器学习技术的进步，ITS的应用不断扩大，但仍需要解决一些重大挑战。正如[16]所强调的，驾驶是一种社会活动，通常需要与其他交通参与者进行频繁的互动，但人类所依赖的智能和常识在当前系统中仍然缺乏。

C. Large Language Models

大型语言模型（LLM）通常是指具有大量参数的语言模型，通常在十亿或更多的数量级。LLM最显着的特点是展现出涌现能力，例如在众多下游任务中进行少量或零次迁移学习的能力，强大的多步推理能力以及遵循指令的能力，这些通常在较小的模型中不存在。

ChatGPT，特别是GPT-3.5 [6]，是LLM开发的里程碑。自发布以来，GPT-3.5一直因其卓越的性能而备受关注。越来越多的研究人员开始探索和利用LLM强大的语言理解，解释，分析和推理能力来解决以前很难甚至不可能解决的问题。

D. Vision-Language Models

视觉语言模型（VLM）连接了自然语言处理（NLP）和计算机视觉（CV）的能力，打破了文本和视觉信息之间的界限，以连接多模态数据。随着LLM的兴起，人们越来越关注如何将视觉模块有效地整合到LLM中以执行多模态任务。
在这里插入图片描述
图三.自动驾驶中的主流视觉语言模型概述。(a)多模态到文本模型将文本和图像或视频作为输入并生成文本，如[18]所示。(b)多模态视觉模型将图像和文本作为输入和输出图像或视频，如[19]所示。?视觉到文本模型接受视频或图像作为输入，并产生文本作为输出，例如GAIA-1 [20]。

AD中的主流视觉语言模型可以根据输入输出模态类型大致分为多模态到文本（M2 T）[18] [21]-[23]，多模态到视觉（M2 V）[20] [24]和视觉到文本（V2 T）[19] [25]，如图3所示。M2 T通常以图文或视频文本作为输入，并产生文本作为输出;相应地，M2 V接受图文作为输入，并产生图像或视频作为输出，而V2 T则以图像或视频作为输入，并产生文本作为输出。
在这里插入图片描述
见图4。自动驾驶中视觉语言模型的两种模态间连接方法：（a）视觉文本匹配。我们在该图的右上角演示了语义相似性匹配。(b)视觉文本融合。融合后的特征可用于下游任务。这一数字来自KITTI [42]。

如图4所示，根据模态间信息连接方法，AD中采用的VLM可以分为视觉文本融合（VTF）[18] [19] [21] [26]-[28]和视觉文本匹配（VTM）[25] [29]-[38]。VTF采用多种融合方法，有效地将视觉嵌入和语言嵌入结合起来，共同优化特征表示，使目标任务表现得更好。
相比之下，VTM，包括图像-文本匹配[39]，[40]和视频-文本匹配[41]，通过迫使视觉-文本对在语义上彼此接近，而未配对的实例彼此远离，从而实现跨模态语义对齐，从而实现跨模态语义传播来学习联合表示空间。CLIP [39]是VLM中里程碑式的图像-文本匹配工作，捕获与语言相关的图像特征表示，并通过对比学习对大量图像-文本对进行训练来实现零拍摄传输能力。

3.自动驾驶中的VLMS

越来越多的倡议正在努力在AD的各个方面实现VLM。在本节中，我们介绍了AD中VLM的现有工作，包括感知和理解（III-A）、导航和规划（III-B）、决策和控制（III-C）、端到端AD（III-D）和数据生成（III-E）。汇总的当前方法见表1。
在这里插入图片描述

A. Perception and Understanding

在自动驾驶感知中，VLM，特别是那些在大规模数据集上预先训练的模型，如[39]，已经激发了许多新的研究。这些研究[30]，[33]利用预先训练的大型VLM的大量先验知识来提高感知和理解的性能，并进一步引入该领域的许多新任务。

行人检测。类人目标混淆和边界样本不足是行人检测中固有的挑战。为此，VLPD [29]首先提出了一种视觉语言额外注释的方法，以增强模型区分混淆的类人对象的能力。它采用CLIP获取像素级的显式语义上下文，并通过对比学习将行人特征与其他类别的特征进行距离，提高了对更广泛情况的检测能力。UMPD [30]还利用了CLIP中的零拍摄语义类，并提出了一种完全无监督的多视图行人检测方法，无需手动注释。

对象引用Object Referring。与AD中的传统感知任务（如目标检测、跟踪和语义分割）相比，语言的引入使模型能够获得更细粒度和全面无约束的理解周围环境的能力。对象引用（OR）是这一领域的代表性任务，其目的是基于语言查询使用框或掩码来本地化所描述的对象。MSSG [26]提出了自动驾驶场景中的多模态3D单对象引用（SOR）任务。它通过在鸟瞰图（BEV）下融合图像，LiDAR和语言特征来训练多模态单次接地模型，并直接从检测器预测目标区域，而无需任何后处理。TransRMOT [31]从SOR任务扩展到多对象引用和跟踪（MOR-T），并基于KITTI数据集构建Refer-KITTI基准。给定一个语言查询，TransRMOT可以检测和跟踪视频中任意数量的引用对象。类似地，ProctTrack [32]为nuScenes数据集提出了一个语言提示集，并构建了NuPrompt基准。与ReferKITTI相比，NuPrompt继承了nuScene的多视图属性，使其适用于多视图MOR-T任务。

开放词汇3D对象检测和语义分割Open-Vocabulary 3D Object Detection and Semantic Seg-mentation。由于大型VLM强大的零镜头传输和跨模态映射能力，对象检测和语义分割被赋予了对未见过的样本执行开放词汇检测和分割的能力。UP-VL框架[35]首先提出了一种无监督的多模态自动标记流水线，以生成点级特征和对象级边界框和tracklet，用于开放词汇类不可知的3D检测器监督，进一步用于在推理时提出3D边界框。UP-VL框架通过相似性匹配，结合语义标签，实现了AD场景下静态和移动交通参与者的无监督开放词汇3D检测与跟踪（OV-3DOD-T）。OpenCloud [33]利用2D-3D投影对应来加强3D点云嵌入和相应的融合2D图像特征之间的一致性。本质上，它将3D点云表示与CLIP的图像-文本表示对齐，以获得密集3D点特征的零次理解能力。OpenScene主要在室内场景中进行评估，但也在nuScenes上展示了令人满意的开放词汇3D语义分割（OV-3DSS）功能。类似地，CLIP 2Scene [34]探索了如何利用CLIP来帮助自动驾驶中的3D场景理解。CLIP 2Scene通过寻找像素-文本映射和像素-点映射之间的模态联系，分别构造点-文本对和像素-点-文本对进行对比学习训练。客观上也是为了保证三维点特征及其对应的语言实现语义一致，从而方便OV-3DSS。实验表明，使用CLIP 2Scene作为预训练大大优于其他自监督方法。
在这里插入图片描述
图五.GPT-4V [54]对交通异常场景可解释性和推理的评估。交通情景A（第一行）来源于Providentia++。交通事故在此图左上角的红色矩形虚线框中突出显示。在第二行中，我们演示了视频中的交通场景B，其中汽车的车门打开，而汽车位于车道中间。红色虚线框表示打开的门和交通灯。

交通场景理解。对交通场景的正确和高水平的理解对于驾驶安全至关重要。在图5中，我们举例说明了GPT-4V [54]在交通事故场景和具有潜在风险的城市道路场景中的理解能力。有几个探索性的工作，利用VLMs通过特定的下游任务来了解交通场景。[25]试图通过图像字幕（IC）描述场景的图像来理解交通场景。[43]将视觉信息转换为语言描述，然后利用LLM强大的推理能力来解决语义异常检测（SAD）。Zelda [36]采用VLM的语义相似性功能进行视频检索（VR），实现了超越其他最先进视频分析系统的性能。NuScenes-QA [21]，基于nuScenes数据集建立了AD场景中视觉问答（VQA）任务的基准，为后续研究提供了基础。Talk 2BEV [23]采用鸟瞰图（BEV）检测模型，密集字幕模型和文本识别模型来构建Ground-truth语言增强的BEV地图，并基于VQA任务评估模型在视觉和空间理解方面的性能。

我们注意到，大多数上述工作，包括OV 3DOD，OV-3DSS，SOR，MOR-T在AD中仍然处于早期阶段，但我们相信这是一个有前途的方向，并预计未来会出现越来越多有趣的工作。

B. Navigation and Planning

在导航领域，随着VLM的发展，特别是CLIP [39]的提出，导航引导（LGN）任务开始从特定的预定义位置描述扩展到自由和任意的指令，这也促进了导航增强地图的发展[38]。

语言指导导航。Talk to the Vehicle [27]提出了一种路点生成器网络（WGN），它将语义占用和预定义的自然语言编码（NLE）映射到本地路点。然后，规划模块采用本地航路点来预测用于执行的轨迹。Ground then Navigatie [37]在CLIP的帮助下解决了语言引导的导航任务。它提出了一种管道，将视频帧，历史轨迹上下文和语言命令作为输入，并输出预测的导航掩码以及每个时间戳的轨迹。ALT-Pilot [38]通过整合语言地标来增强OpenStreetMap（OSM）道路网络，包括街道标志、交通信号和其他有助于本地化的突出环境特征，以取代传统的内存和计算昂贵的高清激光雷达地图。ALT-Pilot还利用CLIP来预先计算每个地标的特征描述符，并在推理时使用余弦相似性将其与像素视觉描述符进行匹配，这有助于语言导航指令与地图位置的对应关系，从而帮助多模式定位和导航。

预测和规划。一些工作也开始探索如何利用LLM来增强运动规划和轨迹预测的性能。GPT-driver [45]将运动规划重新定义为语言建模问题，并将GPT-3.5模型转换为自动驾驶的运动规划器，利用其强大的推理和泛化能力。CoverNet-T [28]提出用基于文本的场景描述和光栅化场景图像训练联合编码器以进行轨迹预测。结果表明，基于文本的场景表示与图像编码具有互补的优势，联合编码优于单独编码。

C. Decision-Making and Control

在自动驾驶的决策和控制领域，一些工作试图利用LLM强大的常识理解和推理能力来帮助驾驶员[46] [48]，模仿并完全替代驾驶员[22] [47] [49]-[51]。通过在AD中利用LLM进行闭环控制，大多数作品[22] [48] [50] [51]引入了一个存储模块来记录驾驶场景，经验和其他基本的驾驶信息。

LanguageMPC[47]采用LLM作为决策组件，以解决需要人类常识理解的复杂AD场景。**Drive as You Speak [48]**提出了一个框架，将LLM集成到AD中，并相应地编排其他模块。驾驶员可以通过LLM直接与车辆通信。该框架包括存储器模块，用于将过去的驾驶场景经验保存在向量数据库中，该向量数据库包括决策线索、推理过程和其他有价值的信息。LLM然后根据获得的经验和常识做出决定。**DiLU [50]**研究了人类驾驶员的驾驶方法，并提出了一种使用推理，记忆和反射模块来促进LLM与环境之间交互的范式。这种方法将人类驾驶员的知识驱动能力嵌入到AD系统中。**DWLLM [49]**将交通参与者和环境编码为对象级矢量。它引入了一种新的范式，采用两阶段预训练和微调方法，使模型能够理解驾驶场景并生成驾驶动作。**SurrealDriver [51]**提出了一个基于CARLA模拟器中LLM的类人AD框架。通过内存和安全机制，LLM可以完成情况理解，决策和动作生成。它还学习人类驾驶员的驾驶习惯，并在闭环中不断优化驾驶技能。**DLaH [22]**引入了推理，解释和内存模块来构建基于GPT-3.5 [6]和LLaMA-Adapter v2 [55]的AD系统。它在情景理解和解决模拟中的长尾问题方面表现出强大的能力。

虽然AD中现有的控制和决策工作仅依赖于LLM，但它们可以利用视觉LLM连接器[55]-[58]轻松与感知模块连接，实现中到中或端到端AD。此外，设计专门适用于AD系统的视觉LLM连接器是一个很有前途的方向。我们鼓励在这一领域进行探索，并相信在不久的将来，这一部分将开展大量工作。

D. End-to-End Autonomous Driving

如[13]中所定义的，端到端AD系统是一个完全可区分的程序，它将原始传感器数据作为输入，并产生一个计划和/或低级控制动作作为输出，这与VLM中M2 T模型的结构非常一致。由于这种自然的协同作用，一些研究开始探索将M2 T VLM模型应用于端到端AD的可行性。与传统的端到端AD系统相比，基于VLMs的大型端到端AD系统具有强大的可解释性、可信性和复杂场景理解能力，为端到端AD的实际应用和实现铺平了道路。

**DriveGPT 4 [18]**是利用大型VLM进行端到端AD任务的开创性工作，它将原始传感器数据和人类问题作为输入，并输出预测的控制信号和相应的答案。它保留了LLM强大的零射击生成能力，并能够处理看不见的场景。**ADAPT [19]**提出了一种基于Transformer模型的端到端AD流水线。通过视频输入，ADAPT连续输出控制信号以及动作的叙述和推理描述。与DriveGPT 4不同，ADAPT不包含VQA模块，而是将可解释的end 2 end AD转换为视觉字幕任务。

E. Data Generation

受益于生成网络的进步和成功[59]-[65]，条件生成模型在AD中的应用允许生成大规模高质量数据，从而促进数据驱动AD的发展。

DriveGAN [52]学习驾驶视频的序列及其相应的控制信号。通过将场景组件分解为动作相关和动作无关的特征，可以控制生成的视频中的车辆行为。该功能可实现高保真、可控的神经模拟和AD数据生成。**BEVControl [53]采用草图风格的BEV布局和文本提示作为输入，**以生成街景多视图图像。它引入了控制器和协调器元素，以确保草图和输出之间的几何一致性以及多视图图像之间的外观一致性。这种方法有助于基于BEV草图的可控AD场景样本生成的可能性。

一些作品将世界模型[66]纳入AD数据生成中，以实现更合理，可预测和结构化的环境模拟。DriveDreamer [24]是一个开创性的AD世界模型，完全从现实世界的驾驶场景中学习。它经历了两个阶段的训练：它最初从真实世界的驾驶视频中理解和建模驾驶场景，从而获得结构化的交通信息。在第二阶段，它通过视频预测任务构建驾驶世界模型，获得预测未来事件并与环境交互的能力。DriveDreamer生成逼真且可控的驾驶场景，可用于AD模型训练。GAIA-1 [20]将视频，动作和文本描述作为输入，利用世界模型的强大功能来学习结构化表示和理解环境，将输入编码为一系列令牌。然后，它采用去噪视频扩散模型作为视频解码器，以实现高度逼真的视频。

4.智能交通系统中的VLMS

智能交通系统正变得越来越普遍，并成为实现完全自动驾驶能力的重要一步[75]。ITS通常由多传感器设置组成，其中由于其丰富而密集的语义信息，相机几乎总是存在的。与AD类似，VLM也可以在许多方面促进ITS的发展，包括ITS感知和理解（IV-A）和ITS管理系统（IV-B）。我们进一步分析了VLM在ITS（IV-C）中的潜在应用。目前的工作在Tab.二.
在这里插入图片描述

A. ITS Perception and Understanding

安装在交通基础设施上的多传感器系统数量的迅速增加大大增强了ITS的能力。它有助于更全面地感知和理解交通环境，使ITS能够准确地识别和解释复杂的交通场景。

语言引导车辆检索Language-Guided Vehicle Retrieval。车辆检索是ITS感知和理解的重要组成部分。为了吸引研究人员在这个方向上的注意力，AI City Challenge [76] [77]一直在举办TrackedVehicle Retrieval by Natural Language Descriptions作为挑战赛道。

作为集体努力的一部分，[67]提出了一种基于自然语言的车辆检索的多粒度检索方法。关键概念是引入了基于语言增强的多查询检索模块。这个模块背后的想法是利用多个不完美的语言描述来实现更高的鲁棒性和准确性。[68]提出了一种有趣的方法，用于解决车辆检索的分布外输入数据。这项工作的关键贡献是引入域自适应训练方法，通过生成伪标签将知识从标记的数据转移到看不见的数据。MLVR [69]提出了一种多模态语言车辆检索框架，该框架采用文本和图像提取器进行特征编码，随后通过视频识别模块生成视频矢量序列。MLVR通过集成联合收割机各种车辆特征的模块，为匹配控制创建更多信息的车辆向量，并完成语言引导的检索。

交通视觉场景推理。在ITS中使用VLM的另一个新兴领域是视觉场景事件理解，其通常形成为视觉问题推理（VQA）任务。[70]提出了一种弱监督的基于自动字幕的视频问句生成方法。核心贡献是使用自动生成的合成字幕在线可用的城市交通视频。然后，自动生成的视频字幕对用于微调，从而将额外的交通领域知识注入到训练模型中。[71]提出了一个跨模态问题推理框架，以确定事件级问题推理的时间因果上下文。基于注意力的模块使得能够学习时间因果场景和问题对。[72]引入Tem-Adapter，通过学习时间依赖性，从时间方面最小化图像和视频域之间的差距。在交通视频问答任务中表现出良好的性能。AnomalyCLIP [73]采用CLIP模型进行视频异常检测。通过指定异常类别和使用上下文优化[78]，它区分正常和异常样本，使模型能够识别异常实例。AnomalyCLIP在各种数据集上都取得了良好的效果，包括路边异常检测。VLM增强的语义异常识别算法可以进一步扩展到ITS中的灾难或紧急响应。

B. ITS Management System

ITS管理系统是基于实时感知和场景理解的交通系统，提高了交通系统的运行安全性和效率。它通过管理交通信号来促进交通顺畅，及时提供道路状况的最新信息，并提供及时的事故警报。

交通流量管理。开创性的工作探索了LLM在交通流量管理领域的使用，特别是在交通信号控制方面。GAT [74]介绍了一种基于LLM的接地动作转换方法，标志着LLM首次应用于缓解交通信号控制中的模拟到真实的转换问题。利用LLM了解天气状况对交通状态和道路类型的影响，增强政策在实际场景中的适用性，有效缩小模拟与真实的差距。

C. Potential Applications

尽管许多方法已经探索了在各种交通场景中利用VLM的能力，但VLM在ITS中的全部潜力仍未开发。

事故预测和检测。迅速发现和预测事故的能力对于确保道路安全至关重要。正如[79]所指出的，目前基于视觉的交通事故检测（Vaccine）和交通事故预测（TAA）仍然面临着各种挑战，包括其长尾和安全关键属性，复杂的场景演变，恶劣的环境和确定的不确定性。大型VLM由于其在零炮泛化、深刻的场景理解、边界情况识别和多步推理方面的卓越能力，成为解决当前挑战的有希望的解决方案。

碰撞报告Crash Reporting。快速的碰撞分析提高了交通效率并防止进一步的拥堵。M2V条件生成VLM代表了一种潜在的解决方案。通过利用司机记录的视频片段沿着他们的描述，该模型可以立即生成事故现场的叙述和司机对事故的描述，从而大大提高处理事故情况的响应时间。

停车场管理系统。智能停车解决方案可以利用LLM在语言引导导航和运动规划领域中展示的规划能力[38]，[45]以显着减少在城市地区寻找停车位的时间。通过与停车位管理系统集成，可以为车辆提供可行路线的语言指导，协助停车管理。这种方法可以通过与车辆侧语言引导导航系统进行交互来进一步增强，从而有可能实现自动停车解决方案。

5.数据集

数据集在确保智能交通的鲁棒性和通用性方面发挥着基础作用。除了传统的基于视觉的数据集，将语言模态集成到数据中为驾驶和运输系统提供了优势。本节展示并分析了自动驾驶基础数据集（V-A）以及在自动驾驶和智能交通环境中集成语言的数据集（V-B和V-C）。数据集的概述见选项卡。数据集的概述见表三。
在这里插入图片描述

A. Autonomous Driving Dataset

在自动驾驶领域，数据集是开发安全高效的感知、预测和规划系统的关键点之一。

像KITTI [42]，nuScenes [85]，BDD100K [86]和Waymo [87]这样的数据集跨越了多个任务，例如对象检测，跟踪和分割，具有各种数据形式。Cityscapes [81]为对象检测和语义分割提供了精确的注释图像数据。与通用数据集相比，加州理工学院行人检测[80]提供了用于城市交通场景中行人检测的注释图像。同时，作为[81]的一个子集，CityPersons专注于不同城市环境中基于图像的行人检测。其他特定于任务的数据集，如SemanticKITTI [83]提供了用于语义分割的标记LiDAR点云。CityFlow [84]给出的数据可用于解决对象跟踪和重新识别。

B. Language-Enhanced AD Dataset

随着自动驾驶的发展，将语言信息与视觉数据相结合可以丰富语义和上下文理解。通过促进对道路机构的更好识别和对驾驶场景的更深入理解，自然语言辅助增强了自动驾驶汽车的安全性和交互能力。

先前的工作[89]提供了一个潜在的机会，通过将语言理解引入检测器来增强自动驾驶车辆中感知系统的能力。对于对象跟踪任务，CityFlow-NL [93]，ReferKITTI [31]和NuPrompt [32]分别使用语言提示扩展[84] [42] [85]。TOUCHDOWN [90]，LCSD [44]和CARLA-NAV [37]生成语言引导的导航数据集。Talk 2Car [92]提出用于单个交通对象引用任务。安全的自动驾驶需要可靠的场景理解，[21] [94] [95]通过提供问答对来评估自动驾驶车辆的理解和推理能力。Talk 2BEV [23]专注于视觉空间推理（VSR）。除了图像和视频数据之外，Rank 2 Tell [96]还考虑了LiDAR点云的多模态重要性排名和推理。BDD-X [88]为提高AD算法的可解释性提供了文本解释。HAD [91]提出了一个人对车的建议数据集，用于开发明智的自动驾驶模型。

C. Language-Enhanced ITS Dataset

基于视觉的智能交通系统可能在交通事故或交通流量大等具有挑战性的场景中表现出脆弱性。因此，将自然语言与可视化数据相结合可以提高交通系统的鲁棒性和分析过程。

异常识别是智能交通系统中的一项关键任务。ShanghaiTech [97]提供了一个包含437个视频的数据集，用于视频级异常检测。UCF-Crime提供了128小时的真实监控视频，包括13个真实的异常。SUTD-QuesticQA [99]包括10，080个野外交通事故视频，以视频问答（QA）格式注释。AerialVLN [100]介绍了一种合成数据集，旨在填补复杂城市环境中基于无人机的视觉语言导航的差距。

6.讨论

基于上述对现有工作的总结，我们在本节中深入讨论了自动驾驶和智能交通系统中与语言模型相关的挑战和研究差距，并概述了未来研究的潜在方向。

自动驾驶基础模型。现有的基础模型-包括视觉基础模型[101]-[103]，语言基础模型[2]-[4]和多模态基础模型[7]-[9]-为自动驾驶基础模型（ADFM）的可行性奠定了基础。我们将ADFM制定为在庞大而多样化的数据集上预先训练的模型，在可解释性，推理，预测和反省方面表现出色，并且在各种自动驾驶任务中有效，例如感知，理解，规划，控制和决策。一些研究已经进行了初步的尝试[18] [20] [45] [47]，而如何使现有的基础模型适应ADFM，以使自动驾驶的客观性保持一致仍然是一个相对未知的领域。

数据可用性和可靠性虽然已经有许多现成的大规模自动驾驶数据集[85] [87]，但它们并不适合直接适应AD和ITS中的LLM。例如，如何生成指令调优数据集和基于AD数据集设计指令格式用于ADFM适配仍然很少研究。此外，大规模的图像-文本交通特定对数据集也可以为AD和ITS的发展提供很大的帮助，特别是对于依赖于VTM预训练模型的方法，如对象检测，语义分割，语言引导导航和语言引导检索。

安全驾驶路线。LLM可能会产生有毒的，有偏见的，有害的内容，可能与人类价值观相冲突，需要对齐调整。同样，在训练自动驾驶基础模型时，也必须使其控制策略，决策和响应机制与安全标准保持一致，以确保遵守稳定，安全和良好的驾驶价值观。LLM对齐调整中的现有技术，例如来自人类反馈的强化学习（RLHF）[104]和监督对齐调整，都值得在这个领域尝试。

多模式适应。如在III-C中所提到的，利用LLM进行运动规划、控制和决策的当前方法通常通过现有的感知算法或通过从模拟器直接提取来直接将传感器数据转换成文本公式。虽然这种模块化方法简化了实验，但它可能导致上下文和环境信息的丢失，并且严重依赖于感知算法的性能。有鉴于此，探索通过VTM或VTF或两者的混合建立视觉语言联系，特别是针对自动驾驶场景，作为简单的手动重新表述的替代方案，是值得追求的方向。

时间场景理解。自动驾驶和ITS中的场景理解通常需要来自视频的时间信息来持续感知和理解交通环境和交通参与者的动态和因果关系。仅仅使用映像级VLM不足以满足需求。例如，从一张图像中无法确定车祸的具体原因图5。因此，如何处理交通场景下的时态传感器数据是一个仍然需要探索的问题。一种可能的方法是训练视频语言模型，例如[18]作为初始尝试，所有现有的视频语言适配器[105] [106]都可能适用于这方面。另一种可能的路线涉及将视频数据转换为可以由图像语言模型处理的范例，集成时间适配器层并根据需要进行微调，从而增强模型对交通环境中时空信息的理解。

计算资源和处理速度。实时处理和有限的计算资源对自动驾驶和智能交通系统中的模型部署提出了重大挑战。目前的LLM通常包含十亿级的参数，使得微调和推理都是高度资源密集型的，并且无法满足实时要求。几种现有技术可以缓解这些问题。例如，参数高效微调（PEFT）[107]-[109]减少了可训练参数的数量，同时保持令人满意的模型性能，从而最大限度地减少微调的资源消耗。此外，与一般的LLM不同，自动驾驶所需的知识通常是专业的和特定于领域的，LLM中包含的许多知识实际上对于AD是多余的。**因此，采用知识蒸馏[110] [111]来训练适合自动驾驶的更小，更定制的模型是一种可行的方法。**深度学习中的其他常见模型压缩技术，例如量化[112] [113]和修剪，也适用于这种情况。

总结

该调查概述了自动驾驶和智能交通系统中视觉语言模型的背景，当前进展，潜在应用和未来发展轨迹。对该领域迄今为止的主要任务、方法和数据集进行了全面的总结和分析。借鉴目前的研究，这项工作阐述了当前的挑战，潜在的解决方案，以及未来探索的可能方向。我们希望本文能引起研究界对这一领域的兴趣和关注，并促进更有意义的研究。