Causal Conditional Hidden Markov Model for Multimodal Traffic Prediction
多模式交通预测的因果条件隐马尔可夫模型
摘要
多式联运交通流可以反映交通系统的健康状况,多式联运交通流预测对城市交通管理具有重要意义。最近的研究过分强调交通流量的时空相关性,忽略了导致观测结果产生的物理概念及其因果关系。在不同条件的影响下,时空相关性被认为是不稳定的,在观测中可能存在伪相关。本文从观测生成原理的角度分析了影响多模式交通流生成的物理概念,提出了一种用于多模式交通流预测的因果条件隐马尔可夫模型(CCHMM)。在潜变量推理阶段,后验网络从条件信息和观察中分离出感兴趣概念的因果表示,因果传播模块挖掘它们的因果关系。在数据生成阶段,先验网络从先验分布中抽取因果潜变量,并将其输入生成器生成多模式交通流。我们使用了一种相互监督的先验和后验训练方法来增强模型的可识别性。在真实数据集上的实验表明,CCHMM可以有效地解开感兴趣和识别概念的因果表示
介绍
城市交通系统通常是多式联运的,由几个相互连接的子系统组成,代表不同的交通方式,如自行车、出租车、公共汽车和汽车。他们的目标是满足多样化的出行需求,为居民提供多种出行选择(Liang, Huang, and Zhao 2021)。多式联运交通流可以反映交通系统的健康状况。城市交通管理者可以根据不同环境下的交通流量制定相应的管理策略,提高城市运行的平稳性。因此,多模式交通流预测是城市交通管理的重要组成部分,为交通引导提供了重要的数据支持(Liang, Huang, and Zhao 2021)。
大多数方法只能预测一定的交通流量(例如,出租车需求或速度)(Bai et al 2020;Li et al . 2021b;郭等2021;Wu et al . 2020;Ye等2021;Han et al . 2021)。它们只是对交通系统的部分观察,并不能真实反映现实场景中的真实情况。相比之下,现有的多模式交通预测方法往往将不同的交通流作为输入数据的通道扩展(Wang et al 2021;Li et al . 2021a;Zhou等2021;Liang et al . 2021),或者在模型中集成不同流的特征表示(Ye et al . 2019;邓等人2021)。他们含蓄地提取了所谓的时空相关性,而缺乏对因果关系的描述。然而,更多的输入信息并不能提高模型的预测能力。相反,它会引入大量的混淆因素,并在观测中提取虚假的相关性(Sch?lkopf等人2021;刘等2021a;邓和张2021),导致模型性能下降。
目前,交通流预测方法过分强调交通流的时空相关性(Liu et al . 2021b;Bai et al . 2020;Li et al . 2021b;Ye等2021;Han等人2021),忽略了导致观测产生的物理概念以及这些概念之间的因果关系。在不同条件的影响下,时空相关性被认为是不稳定的,在观测中可能存在伪相关。当我们深入研究arXiv:2301.08249v1的生成原理时,因果关系是必要的。2023年1月19日观测。例如,研究人员(Y e et al 2019;Deng et al . 2021)认为出租车流量和自行车流量之间存在一定的相关性,并且在多任务学习方面可以相互促进。如图1(b)所示,在正常情况下出租车和自行车的流量似乎是相关的。由于人们在高峰时段到达或离开一个地区的需求是一致的,因此趋势是相似的。然而,当下雨时(红色标记),由于天气变化,对自行车的需求减少,但对出租车的需求增加,在同一时期,趋势完全相反。这表明在天气的影响下,出租车和自行车流量之间存在虚假的相关性。第二,我们认为地域属性与人们的出行需求有很强的因果关系。如图1(b)和(c),该区域在医院属性的影响下具有较强的区域吸引力,导致需求量大,因此早、中午高峰期明显。此外,由于高需求(绿色标记),该地区长期拥挤。北京金融街是企业较多的主要办公区,早晚高峰明显(绿色标示)。我们在附录中提供了更多影响旅游需求的区域POI因素的例子。最后,对出租车的需求可能会影响交通速度。如图1(c)所示。出租车需求可以从流量推断出来。出租车流量越大,道路上的车辆越多,交通速度越慢(用蓝色标记)。相比之下,高公交需求并不意味着道路上有大量的公交车,因此公交需求与速度之间的因果关系不大。
本文将时空多模态交通序列生成过程视为一个条件马尔可夫过程,提出了一个因果条件隐马尔可夫模型(CCHMM)。我们通过变分推理来解开潜在的解释因素,并通过结构因果模型(SCM)建立潜在变量之间的因果关系(Pearl 2009;Scholkopf 2022)。与已有研究相比,本文从因果关系的角度建立了多模式交通流预测模型,而不是建立复杂的区域间邻接图来提取观测数据中的时空相关性。交通预测领域的理论创新在于:基于因果关系的思想,从观测生成原理的角度对多式联运系统的运行过程进行建模,而现有方法并未关注观测数据中的因果关系。我们提出了一个因果图(如图2所示)来描述多式联运交通系统的运行,并在其上定义了一个联合分布(如图2所示)。
1)描述观测数据生成原理。具体来说,首先,后验网络从条件信息和观测数据中推断出感兴趣概念的解缠表示,并学习变分后验分布。然后,先验网络根据条件信息对系统中存在的自然物理规律进行建模,学习感兴趣概念的先验分布。第三,因果传播模块挖掘因果效应,将从先验和后验网络推断出的外生变量转化为因果内生变量。最后,将因果内生变量输入到生成器中生成多式联运交通流,并将其作为预测结果。
本工作的主要贡献如下:
?我们分析了影响多式联运交通流生成过程的核心物理概念,解开了感兴趣概念的因果表示,并进一步探索了它们的因果关系。
?我们对以往的预测方法进行了改革,创新性地提出了从观测生成原理的角度对多模式交通流进行预测的因果条件隐马尔可夫模型(Causal Conditional Hidden Markov Model, CCHMM)。
?我们提出了一种相互监督的先验和后验训练方法,以捕获概念的物理规则并增强模型的因果可识别性。
?在真实世界数据集上的广泛实验表明,CCHMM全面优于最先进的多模式交通流量预测方法。
2相关工作
多模式交通流量预测。随着数据来源的多样化,交通流预测中的多模态融合成为近年来研究的重点。研究人员构建基于多任务学习框架的模型来同时预测交通流量和速度(Wang et al . 2021;Li et al . 2021a)。叶等人2019)等人利用卷积自编码器对空间交通流进行分解,实现异构LSTM同时预测三种交通模式下的交通流。Deng (Deng et al . 2021)等人学习了单模态交通流的多视图表示,并引入了一种跨视图自注意机制来捕捉不同交通模式之间的协同演化相关性。这些工作大多实现了多层感知(MLP)来编码条件信息(例如:天气和POI)使用CNN(Liang et al . 2021;曹等人2021)或图卷积网络(GCN)(Wu等人2019;Han et al . 2021)用于捕获空间特征,并使用RNN来捕获时间特征(Ye et al . 2021;Li et al . 2021b;Bai et al . 2020)。
最后,将融合后的特征输入下游预测网络。然而,这些模型没有区分与不同任务相关的特征,这使得模型学习训练过程中的伪相关。伪相关使得模型很难泛化到训练分布之外。
因果解纠缠表征学习。在表示学习中,观察值x是通过两步生成过程生成的。首先,从先验分布p(z)中采样潜在变量z,然后从条件分布p(x|z)中采样观测值x (Locatello et al 2019)。解纠缠表征学习的目的是学习可分离潜变量z = {z1, z2,…、}。大多数现有方法依赖于潜在变量的独立性假设,这可能是不现实的(Khemakhem et al 2020)。事实上,潜在变量之间通常存在复杂的因果关系(Y ang et al . 2021)。为了解决这个问题,最近的工作建议结合SCM (Pearl 2009;Sch?lkopf 2022)与深度学习模型。CasualV AE (Y ang et al . 2021)提出了一个带有因果层的模型,将外生因素转化为因果内生因素,对应于数据中因果相关的概念。Shen (Shen et al . 2020)等人使用SCM作为双向生成模型的先验,该模型可以从潜在因素的任何期望的干预分布中生成数据。与上述研究不同的是,我们的模型侧重于时空序列上的因果解纠缠表征学习。Li (Li et al . 2021c)等人提出了一种基于HMM的时间序列疾病预测方法。虽然该方法可以理清与疾病相关的潜在变量,但忽略了各因素之间的因果关系。在我们的模型中,我们构建了一个综合的时间因果图,包括条件信息、潜在变量和观测数据。据我们所知,我们的工作是第一个成功地将结构因果模型应用于交通预测问题的研究。
3 方法
问题定义
我们将多模式交通流的生成过程定义为条件马尔可夫过程,用有向无环图(DAG)表示,如图2所示。对于时间步长t的潜变量推理阶段,由P OI、时间位置和天气组成的条件信息反映了当前系统的外部状态。将条件信息与前一时间步t?1的因果内源性潜在变量zt?1结合,提取出由系统外部状态决定,不受观测值影响的独立外源性变量然后,结构因果模型(SCM) zi←)(Sch?lkopf 2022)分配了每个潜在内生变量的生成机制,其中表示的父节点集。它将独立的外生变量转化为因果内生变量。因果内生潜在变量zt被视为一系列感兴趣概念的近似表示,其中元素分别表示时刻t的区域吸引力因素、自行车需求因素、出租车需求因素、公共汽车需求因素和速度因素。由于这些潜在变量演变为多模式交通观测进展的内在驱动因素,因此潜在变量的先验分布具有马尔可夫性质,并定义为
对于时间步长为t的数据生成阶段,外生潜在变量t从先验分布,因果内生潜变量zt由SCM生成。最后,观测值由条件分布生成。
CCHMM的概率生成模型
我们给出CCHMM概率生成模型的联合分布定义,并根据DAG(图2)和因果马尔可夫条件(Pearl 2009)对其进行因式分解:
第一项为先验模型,可以根据因果关系进一步分解为外生变量和内生变量的生成机制:
第二项是生成模型,根据感兴趣的概念对应的内生变量,可以进一步将其分解为每种模态的生成模型:
我们应用变分贝叶斯学习一个可处理的分布来近似真实后验,定义如下:
因果条件隐马尔可夫模型
为了在上述概率生成模型的基础上建立因果条件隐马尔可夫模型,如图3所示,我们的主要工作如下:(1)在潜变量推理阶段,使用深度神经网络拟合先验分布和后验分布的潜在变量,以解开影响多模式交通观测产生的概念的因果表示。(2)提出因果传播模块,通过可训练的因果图挖掘内生潜变量之间的因果关系,并根据因果顺序传播因果效应。(3)在观测数据生成阶段,建立生成器近似条件生成分布。我们利用可学习的变分分布来近似真实的数据分布,目的是使用变分推理来解开物理概念的因果表示。与传统的V AE相比,我们明确地赋予潜在变量真实的语义信息(即物理概念的因果表示)。
后验的网络
我们使用条件信息和观测值来构建一个PosteriorNet,其目的是通过学习变分后验分布如图3黄色部分所示,它由图门控循环单元(GraphGRU)和因果传播模块(Causal Propagation Module)组成。
GraphGRU
多模态交通流的演化具有马尔可夫性,潜在变量的演化是多模态交通观测时空相关性的内在驱动。因此,我们使用GraphGRU对系统状态的演化过程进行建模,将时空依赖关系捕获为外生潜在变量。我们构建参数无关的GraphGRU来学习每种交通模式的模式特定模式,定义如下:
其中表示感兴趣的物理概念,| |表示连接操作,σ表示sigmoid函数,是有条件的信息,是第i的观察模式,ci是交通流的数量的第i个渠道模式,后内生潜变量t?1,后外生潜变量t,卷积和W, b是图的参数。由定义的图卷积,其中为区域的距离邻接矩阵,, N为区域的个数。然后,我们通过对每个交通模式使用单独的完全连接层来计算的均值和对数方差,以获得外生潜在变量。
因果传播模块
影响观察结果产生的概念自然是因果相关的。因此,内隐变量作为概念的语义表征,也具有因果关系。我们提出了一个因果传播模块,将独立的外生变量转换为因果内生变量,并利用可学习的因果图来挖掘它们的因果关系。
线性SCM定义为我们为每一种交通模式加入了与参数无关的非线性变换,以提高表征能力。本文将因果传播模块定义为:
其中,为可学习参数,α为控制激活函数饱和率的超参数。ReLU对参数矩阵进行正则化以保证稀疏性和非负性。是内源性潜在变量的因果图,其中表示父变量对子变量的因果效应。因此,当图节点按拓扑顺序排序时,矩阵是严格的上三角矩阵。然后,我们通过对每种交通模式使用单独的完全连接层来计算平均值和对数方差
先验网络
以往基于vae的无监督解纠缠表示学习使用标准的多元高斯先验对潜变量的后验进行正则化,极大地限制了模型的表达能力。由于缺乏归纳偏差,无监督解纠缠表示学习不能保证模型的可识别性(Locatello et al 2019)。为了提高模型的可识别性,我们建立了一个基于条件信息的PriorNet,其目的是对系统中自然存在的感兴趣概念的物理规则进行建模,并使用可学习的先验分布来近似该规则。如图3中粉色部分所示,PirorNet与PosteriorNet在结构上类似,由GraphGRU和因果传播模块组成。
GraphGRU
PriorNet只输入当前系统的条件信息,根据公式5计算先验外生潜在变量,然后得到外生潜在变量通过计算均值和对数方差。
因果传播模块
前网和后网共享一个因果传播模块。我们认为因果关系是一种稳定的自然现象,不随时间或空间而变化,因此在全球范围内共享因果图和非线性转换。我们根据公式6计算先验内生潜变量,然后通过计算均值和对数方差得到内生潜变量的先验分布
生成器
我们使用两个完全连接的层构建生成器,以参数化公式3中定义的生成模型的条件分布。如图3所示,生成器是全局共享的。生成器是全局共享的,如图3所示。根据z的类型,生成模型的结果具有不同的含义。
重建
如图3黄色箭头所示。PosteriorNet将当前观测值作为输入的一部分。因此,当使用后验内生潜变量生成数据时,输出的是重构结果,表示为:
预测
PriorNet仅利用当前条件信息拟合先验分布,不涉及当前观测值。因此,当使用先验内生潜变量生成数据时,输出为预测结果。基于序列生成的马尔可夫特性,我们利用一种简单的注意机制,将当前先验的内生潜变量与之前的后验变量进行加权,从而进一步提高预测效果。注意机制定义为:其中为可学习参数。然后将输入到发电机中得到预测结果,表示为
学习策略
我们提出了一种相互监督的PriorNet和PosteriorNet训练方法,该方法使模型能够近似感兴趣概念的物理规则,同时帮助模型识别出因果表示。基于变分推理,我们使用神经网络学习一个可处理的分布来近似真实后验分布。给定数据集D, CCHMM的证据下限(ELBO)为:
我们将Eq. 6重写为,其中w是因果传播模块的参数,并且是可逆的。
因此,我们用狄拉克δ函数δ(·)重新表述先验和后验分布,表示如下:
我们将先验分布和后验分布代入方程9,将重新表述为:
式中,第一项为重建损失,后两项分别为外生潜变量和内生潜变量的KL散度。
由于因果图具有无环的性质,需要增加无环约束(Yu et al .2019),表示为
此外,我们使用l2范数作为预测损耗,定义为. 综上所述,CCHMM的总损失函数定义为:,其中λ为控制损失平衡的超参数。
4实验
我们在真实世界的交通数据集上评估了我们的模型的性能,并与最近一些引人注目的交通流预测方法进行了比较。此外,一项全面的消融研究表明了我们模型的每个组成部分的有效性。
数据集
XC-Trans: XC-Trans数据集包含2021年6月1日至2021年12月31日北京西城区三种交通方式(自行车、公交车和出租车)的订单记录。研究区域被划分为175个互不重叠的子区域。我们统计了所有子区域中每种交通方式的流入和流出。
XC-Speed: XC-Speed数据集包含2021年6月1日至2021年12月31日北京市西城区主要道路的车速记录。我们用每个区域内路段的平均速度来表示每30分钟的区域速度。
同时,收集相应的气象信息、时间位置和POI数据作为条件信息。我们以30分钟的间隔拆分该数据集,以获得11753个样本。我们用3小时的历史数据来预测未来30分钟的数据。60%的数据用于训练,20%用于验证,其余用于测试。
实验设置
我们将我们的框架与以下方法进行比较。
1)HMM(Li et al . 2021c):利用多模态信息实现对不可逆疾病早期的鲁棒预测。2) AGCRN(Bai et al . 2020):采用自适应图,将GRU与图卷积相结合。3) CCRNN(Y e et al 2021):采用耦合的分层图卷积层,同时捕获多层次的空间依赖性和时间动态性。4) DGCRN(Li et al . 2021b):结合预定义的邻接矩阵和输入特征生成动态图。5) HGCN(Guo et al . 2021):分别从微观和宏观角度构建道路图和区域图。6) DMSTGCN(Han et al . 2021):设计了一种自适应图构建方法来学习路段的时间特异性空间依赖关系
整体比较
我们用平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)来评估方法的性能。表1给出了总体预测性能,它是三个独立实验的平均结果。除了我们,没有一种方法可以兼容所有的交通方式。
基线模型侧重于自适应或动态生成图结构,而我们的模型更注重对交通系统中潜在语义变量之间的因果关系进行建模。由于缺乏空间依赖性和因果关系的建模,HMM模型表现出最差的性能。该模型基于动态图(如:DGCRN)比基于自适应图的模型(例如;AGCRN)。此外,可以观察到,我们的模型始终如一地、压倒性地优于基线模型。特别是在速度预测方面,由于速度因素的因果关系更加清晰,我们的CCHMM使所有指标的最佳结果提高了10%左右
消融实验
为了评估关键部件的有效性,我们进行了全面的烧蚀实验。对于PriorNet,我们设计了四种变体:1)w/o GRU:这种变体用GCN取代GraphGRU。潜在变量的先验仅由条件信息生成,这意味着丢弃长期的时间依赖性。2)w/o GCN:这种变体删除了GraphGRU中的GCN,这意味着放弃空间依赖性。3) w/o Cond:这种变体删除了条件信息。注意,我们考虑作为外生与条件信息相关的变量。去掉条件信息相当于去掉PriorNet,直接从posternet的观测数据中生成潜在变量。4) w/o Prior:这种变体删除了PriorNet,但保留了条件信息。与变体3不同的是,潜变量是由条件信息和SCM观测生成的。对于因果传播模块,我们设计了三个变体:5)纠缠:该变体中只有一个潜在变量。6) w/o SCM:这种变体去掉了SCM,这意味着潜在变量直接从条件信息和观察中产生。7) w/o非线性:该变体将SCM中的非线性变换替换为线性变换。注意,除了变体3和变体4使用额外的FC层进行预测外,其他网络都使用generator来获得预测结果
烧蚀实验性能如表2所示。我们可以发现,由于缺乏空间和时间依赖性,变体1和变体2表现最差。
变体3的表现说明了条件信息的必要性。事实上,外生变量只影响系统,而不受系统的约束。这意味着我们只能通过条件信息来确定它们。最终,不含条件信息的模型退化为普通的序列解纠缠表示学习模型。在变体4中,我们去掉了PriorNet。PriorNet的作用是获得物理概念的稳定规则,而PosteriorNet的作用是从观测数据和条件信息中获得解纠缠的表示。在缺乏事前监督的情况下,可能会发生后塌陷,导致无法获得稳定有效的因果表征。如图4所示,变体4的重建损失通常低于我们的CCHMM,这意味着模型更倾向于学习一个表示进行重建,而不是解纠缠。
对于因果传播模块,具有解纠缠潜变量的模型优于具有纠缠潜变量的模型;这意味着基于价值的结构在一定程度上解耦了潜在变量。由于没有因果结构的限制,因此存在伪相关。最明显的后果是速度预测性能降低了15%。此外,变量7线性模型的性能不足以表达复杂场景下的因果关系。
此外,对于每个具有因果传播模块的模型,我们将因果图初始化为服从标准正态分布的上三角矩阵。如图5可以观察到,变异1未能学习到稳定的因果关系。没有GCN的模型和没有非线性变换的模型学习到的因果图与我们的CCHMM相似。特别是,没有PriorNet的模型学习了具有大对角元素的因果图。这意味着模型无法学习符合因果关系的物理概念的表示。
5 结论
本文分析了影响多式联运交通流产生的核心物理概念,并将其划分为区域吸引力因素、交通需求因素和交通速度因素三大类。我们基于变分推理和结构因果模型,从当前系统的条件信息和观察中推断出这些概念的因果表示,并利用可学习的因果图挖掘它们的因果关系。对于数据生成阶段,我们将先验因果表示输入生成器以生成预测。大量的实验表明,CCHMM的所有指标都是最优的,这表明将因果理论引入时空序列分析是至关重要的。在未来的工作中,我们将进一步探索多模式交通系统中的因果关系。