Traffic Flow Prediction Based on Spatial-Temporal Attention Convolutional Neural Network
-
摘要:
为充分挖掘交通流量的复杂时空动态相关性以提高交通流量预测精度,引入空间注意力机制与膨胀因果卷积神经网络,提出一种基于时空注意力卷积神经网络的交通流量预测模型(spatio-temporal attention convolutional neural network,STACNN). 首先,由膨胀因果卷积与门控单元构建的门控时间卷积网络模块用于获取交通流量的非线性时间动态相关性,避免在训练长时间序列时发生梯度消失或梯度爆炸;其次,采用空间注意力机制为路网中的交通传感器节点自动分配注意力权重,动态关注不相邻节点之间的空间关系,并结合图卷积神经网络提取路网的局部空间动态相关性特征;然后,通过全连接层获取最终的交通流量预测结果;最后,利用高速公路交通数据集PEMSD4、PEMSD8进行了60 min的交通流量预测实验. 实验结果表明:与基线模型中具有良好性能的时空图卷积网络(spatio-temporal graph convolutional network,STGCN)模型相比,提出的STACNN模型预测结果的平均绝对误差(mean absolute error,MAE)在两个数据集上分别提高2.79%和1.18%,平均绝对百分比误差(mean absolute percentage error,MAPE)分别提高1.00%和0.46%,均方根误差(root mean square error,RMSE)分别提高3.80%和1.25%;此外,引入的膨胀因果卷积神经网络与空间注意力机制对提取时空动态相关性特征均具有积极的贡献.
Abstract:In order to fully exploit the complex spatial-temporal dynamic correlation of traffic flow and improve the accuracy of traffic flow prediction, a spatial attention mechanism and an dilated causal convolutional neural network are introduced. A traffic flow prediction model STACNN based on spatial-temporal attention convolutional neural network is proposed. Firstly, the gated temporal convolution network block constructed by dilated causal convolution and gating unit is used to obtain the nonlinear temporal dynamic correlation of traffic flow and avoid gradient disappearance or gradient explosion when training long-term sequences. Secondly, the spatial attention mechanism is used to automatically assign attention weights to the traffic sensor nodes in the road network, which can dynamically pay attention to the spatial relationship between non-adjacent nodes, and combine the graph convolutional neural network to extract the local spatial dynamic correlation of the road network. Then, the final traffic flow prediction result is obtained through the fully connected layer. Finally, a 60-minute traffic flow prediction experiment is carried out using two highway traffic datasets PEMSD4 and PEMSD8. The experimental results show that: compared with the spatio-temporal graph convolutional network (STGCN) model with good performance in the baseline model, the MAE (mean absolute error) value of the prediction results of the proposed STACNN model on the two datasets is improved by 2.79% and 1.18%, the MAPE (mean absolute percentage error) value increased by 1.00% and 0.46%, and the RMSE (root mean square error) value increased by 3.8% and 1.25%, respectively. In addition, introducing dilated causal convolutional neural network and spatial attention mechanism have positively contributed to extraction of spatial-temporal dynamic correlation features.
-
Key words:
- traffic forecasting /
- deep learning /
- graph convolution /
- attention mechanism
-
随着城市交通的不断发展,道路拥堵、交通事故等诸多问题频发,交通流量预测得到了越来越多的关注. 实时准确的交通流量预测是智能交通系统(intelligent transportation system,ITS)中必不可少的一部分,是交通管理、路径规划等应用的重要基础[1].
交通流量预测主要受路网结构和时间周期变化等因素的影响. 历史平均(historic average,HA)方法[2]是早期的交通流量预测方法,将历史交通流量的平均值作为预测值. 由于交通流量是随时间动态变化的,HA不适用于动态变化的时间序列数据. 卡尔曼滤波模型[3-4]通过自动更新权值,保持滤波最佳,以提高交通流量的预测精度. 差分整合移动平均自回归(autoregressive integrated moving average,ARIMA)模型[5]及季节性ARIMA (seasonal ARIMA,SARIMA)模型[6]通过差分将不平稳时间序列转变为平稳时间序列进行交通流量预测. 考虑空间相关性对交通流量的影响,向量自回归(vector autoregression,VAR)模型[7]比ARIMA模型具有更好的预测精度. 由于交通流量的非线性以及不确定性特征,机器学习方法被广泛应用于交通流量预测,例如支持向量回归(support vector regression,SVR)[8]、K最邻近(K-nearest neighbor,KNN)[9]、贝叶斯模型[10]等. 虽然机器学习方法能够挖掘交通流量数据的非线性关系,但是依赖细致的特征工程,对于复杂和高维非线性的交通流量数据,其预测精度较差.
随着深度学习的兴起,许多研究者利用深度学习方法处理高维时空数据,以便更好地提取时空相关性特征. Shao等[11]将长短期记忆网络(long short-term memory,LSTM)模型应用于交通流量预测,通过捕获交通流量的长期时间相关性特征以提高交通流量的预测精度. 刘明宇等[12]利用门控循环单元的递归神经网络(gated recurrent unit,GRU)模型来预测城市交通流量,模型内部结构比LSTM少一个门控单元,但仍然具有较好的预测性能. 由于交通流量数据不仅在时间上具有动态相关性,在空间上也具有较强的动态相关性. 为模拟时空动态相关性,Shi等[13]提出卷积长短期记忆网络 (convolutional LSTM,Conv-LSTM)模型,将卷积与循环神经网络融合来学习交通流量预测的时空相关性. Yao等[14]提出时空动态网络(spatio-temporal dynamic network,STDN)模型,利用卷积神经网络(convolutional neural network,CNN)和LSTM捕获交通流量数据的时空相关性. Zhang等[15]提出时空残差网络(spatio-temporal residual network,ST-ResNet)模型,利用不同残差单元对时间邻近性、周期性、趋势性进行建模,预测城市区域的人流量. Zhao等[16]将图卷积网络(graph convolutional network,GCN)和GRU结合,提出时间图卷积网络(temporal graph convolutional network,T-GCN)模型,利用GCN学习复杂的拓扑结构来捕获空间相关性,利用GRU学习交通流量数据的动态变化来捕获时间动态相关性. Yu等[17]提出时空图卷积网络(spatio-temporal graph convolutional network,STGCN)模型,使用一维CNN对时间动态相关性进行建模,通过GCN获取路网的局部空间相关性.
现有的深度学习方法尽管考虑了时间和空间的相关性,但这些方法仍有不足:
1) 现有的大多数深度学习方法利用LSTM和GRU捕获时间动态相关性,但是容易发生梯度爆炸. 虽然一维卷积可以弥补该缺陷,但是需要堆叠多层网络才能学习长时间序列的时间相关性,容易导致梯度消失.
2) 路网的空间相关性强弱会随时间变化而动态变化,比如,工作日早上写字楼和居民住宅区之间的交通流量存在很强的空间相关性,但在周末他们之间的空间相关性变弱. 但是,现有研究通常利用GCN根据历史交通流量捕获空间静态相关性,而没有考虑空间动态相关性.
为解决以上不足,充分考虑时空动态相关性,进一步提高交通流量预测精度,本文在STGCN模型基础上进行改进,引入空间注意力机制自适应学习交通流量的空间动态相关性,引入膨胀因果卷积神经网络以较少的层数和参数提取较长时间序列的时间动态相关性,提出基于时空注意力卷积神经网络的交通流量预测模型(spatio-temporal attention convolutional neural network,STACNN).
1. STACNN 模型
1.1 交通流量预测问题定义
通过分布在路网中的交通传感器能够及时收集交通流量数据[18],该交通流量是指在选定时间段内通过某一传感器的车辆数. 路网中所有交通传感器构成拓扑图
G=(V,E,A) ,其中:V={v1,v2,⋯,vN} 为交通传感器节点(简称节点)集合,N 为节点数量;E 为边集合,表示路网中各节点之间的连通性;A∈RN×N ,为根据每对节点之间的距离构造的邻接矩阵. 特征矩阵Xt∈RN×P ,为图G在时间戳t的交通流量,P为节点的特征数量. 交通流量预测为给定图G和历史T时段交通流量,预测未来T′ 时段的交通流量X′=(X′t+1,X′t+2⋯,X′t+T′) ,映射关系如式(1)所示.X′=f(G;(Xt−T,Xt−T+1,⋯,Xt−1,Xt)), (1) 式中:
f(•) 为交通流量预测函数.1.2 STACNN模型框架
STACNN模型框架如图1所示,由2个时空块(spatio-temporal block,ST Block)块和1个全连接(full connection,FC)层组成,每个时空块由2个门控时间卷积网络(gated temporal convolutional network,Gated-TCN)模块和1个GCN + Attention模块构成,并且每层网络之间实现残差连接. Gated-TCN模块引入膨胀因果卷积,解决一维卷积在处理长时间序列数据时发生梯度消失的缺陷;GCN + Attention模块引入空间注意力机制解决空间动态相关性特征提取不全的问题. 图中,σ(·)为sigmoid激活函数.
1.3 局部空间动态相关性建模
为捕获局部空间动态相关性,GCN + Attention模块将空间注意力机制[19]与图卷积神经网络结合,在空间维度上进行建模.
1.3.1 空间注意力机制
图卷积神经网络能捕获图G中相邻节点之间的局部空间相关性,然而图中不连通的两个节点之间可能存在较强的关联性. 空间注意机制的核心思想是根据输入数据自适应地关注最相关的特征[20]. 因此,利用空间注意力机制在空间维度上自适应捕获任意节点之间的空间动态相关性,空间注意力机制如式(2)、(3)所示.
W=Oσ(Yl−1Z1Z2(Z3Yl−1)T+b), (2) Wi,j=exp(Wi,j)∑Nj=1exp(Wi,j),i,j=1,2,⋯,N, (3) 式中:
Yl−1∈RN×Pl−1×Tl−1 ,为第l − 1个时空块的输出,也是第l个时空块的输入,可转换为N 个Pl−1×Tl−1 二维矩阵参与模型计算,其中,Pl−1 为第l − 1个时空块输出数据的通道数量,即节点特征数量,当l = 1时,P0=P ,Tl−1 为第l − 1个时空块输出数据的时间序列长度,当 l = 1时,T0=T ;O∈RN×N,b∈RN×N ,Z1∈RTl−1×1 ,Z2∈RPl−1×Tl−1 ,Z3∈R1×Pl−1 为可学习的参数矩阵,在式(3)首次计算前被随机初始化;W=(Wi,j)N×N 为注意力矩阵,Wi,j 为节点i与节点j之间的空间相关强度,由softmax函数计算得到.1.3.2 图卷积
交通传感器在路网中分布不均,形成的图不是规则的网格化图,而是拓扑图,而标准卷积无法对一般拓扑图进行局部空间相关性特征提取. GCN基于图谱理论实现拓扑图上的卷积操作[21],因此,采用GCN学习局部空间相关性. 根据图谱理论,图结构性质通过拉普拉斯矩阵和特征值获得,图上的频谱卷积结果通过图信号
x∈RN×1 与图卷积核函数Θ(•) 卷积计算获得,图谱卷积定义如式(4)所示.Θ∗φx=Θ(L)x=Θ(UΛUT)x=UΘ(Λ)UTx, (4) 式中:
*φ 为图卷积算子;U 为通过拉普拉斯特征值分解L = UΛUT 获得的傅里叶基正交矩阵,Λ=diag(λ0,λ1,⋯,λN−1)∈RN×N ,为特征值对角矩阵,图G 经过傅里叶变换得到傅里叶系数ˆx=UTx ;L=D−A ,为拉普拉斯矩阵,A 为图G 的邻接矩阵,对角矩阵D∈RN×N 为度矩阵,L 的归一化形式如式(5)所示.L=IN−D−12AD−12,L∈RN×N, (5) 式中:
IN 为N×N 的单位矩阵.由于式(4)计算复杂度高,而切比雪夫多项式能够有效地解决此问题[22],因此,式(4)近似表达为式(6).
Θ∗φx=Θ(L)x≈K−1∑k=0θkTk(˜L)x, (6) ˜L=2L/λmax (7) {{\boldsymbol{T}}_k}\left( {\tilde {\boldsymbol{L}}} \right) = 2\tilde {\boldsymbol{L}}{{\boldsymbol{T}}_{k - 1}}\left( {\tilde {\boldsymbol{L}}} \right) - {{\boldsymbol{T}}_{k - 2}}\left( {\tilde {\boldsymbol{L}}} \right), (8) 式中:
{{\boldsymbol{T}}_k}\left( {\tilde {\boldsymbol{L}}} \right) \in {{\bf{R}}^{N \times N}} 为式(8)求出的第k 阶切比雪夫多项式,当k = 0 时,{{\boldsymbol{T}}_0}\left( {\tilde L} \right) = {\bf{1}} ,当k = 1 时,{{\boldsymbol{T}}_1}\left( {\tilde {\boldsymbol{L}}} \right) = \tilde {\boldsymbol{L}} ;\tilde {\boldsymbol{L}} 为{\boldsymbol{L}} 缩放后的N \times N 实数矩阵;{\lambda _{\max }} 为拉普拉斯的最大特征值;{\theta _k} 为第k阶切比雪夫系数;K为卷积核尺寸,确定了从中心节点开始卷积的最大半径.为有效地学习局部空间动态相关性,将第
k 阶切比雪夫多项式{{\boldsymbol{T}}_k}\left( {\tilde {\boldsymbol{L}}} \right) 与{\boldsymbol{W}} 结合,得到{{\boldsymbol{T}}_k}\left( {\tilde {\boldsymbol{L}}} \right) \odot {\boldsymbol{W}} ,\odot 为哈达玛积. 因此,式(6)变化为\varTheta * \varphi {\boldsymbol{x}} = \varTheta \left( {\boldsymbol{L}} \right){\boldsymbol{x}} \approx \sum\limits_{k = 0}^{K - 1} {{\theta _k}\left( {{{\boldsymbol{T}}_k}\left( {\tilde {\boldsymbol{L}}} \right) \odot {\boldsymbol{W}}} \right){\boldsymbol{x}}} . (9) 1.4 时间动态相关性建模
RNN及其变体模型存在迭代耗时、容易发生梯度爆炸、复杂的门机制等缺陷,而且常规一维卷积需要增加多层卷积或扩大卷积核才能提取长时间序列的时间相关性. 而膨胀因果卷积神经网络[23]保留了时间因果顺序,使得当前时段的交通流量预测仅涉及历史交通信息,并且能够指数级扩大卷积的感受野(receptive field),以非递归的方式和较少的网络层数处理长时间序列,这有利于缓解梯度爆炸和梯度消失. 如图2所示,通过膨胀因果卷积跳过部分输入,卷积核大小为2的过滤器能应用于大于过滤器本身长度的区域. 因此,本文在时间维度上采用膨胀因果卷积捕获时间动态相关性.
Dauphin等[24]使用门机制控制网络中各个层的输出信息,加速模型收敛,因此,Gated-TCN模块由膨胀因果卷积与门机制构成. 图G中第n个节点第c个Gated-TCN模块的输入为
{{\boldsymbol{\chi}} _{n,c - 1}} \in {{\bf{R}}^{{\varGamma _{c - 1}} \times {F_{c - 1}}}} ,{\varGamma _{c - 1}} 为第c - 1 个Gated-TCN模块输出数据的时间序列长度,{F_{c - 1}} 为第c - 1 个Gated-TCN模块输出数据的通道数.{{\boldsymbol{\chi}} _{n,c - 1}} 通过卷积计算得到输出矩阵\left( {{\boldsymbol{M}},{\boldsymbol{Q}}} \right) \in {{\bf{R}}^{{\varGamma _c} \times 2{F_c}}} ,其中,{\boldsymbol{M}} \in {{\bf{R}}^{{\varGamma _c} \times {F_c}}} ,{\boldsymbol{Q}} \in {{\bf{R}}^{{\varGamma _c} \times {F_c}}} ,都为Gated-TCN门控单元的输入. 给出一个膨胀因果卷积的过滤器{\boldsymbol{g}} \in {{\bf{R}}^{K \times 1}} ,{{\boldsymbol{\chi}} _{n,c - 1}} 与{\boldsymbol{g}} 的膨胀因果卷积为\left( {{\boldsymbol{M}},{\boldsymbol{Q}}} \right) = { {{{\boldsymbol{\chi}}^r _{n,c - 1}}} } * _{\alpha} {\boldsymbol{g}} = \sum\limits_{s = 0}^{K - 1} {{{\boldsymbol{g}}_s}{{ {{{\boldsymbol{\chi}}^{r - ds} _{n,c - 1}}} }} } \text{,} (10) 式中:
*_{\alpha} 为膨胀因果卷积算子;r 为每次进行卷积之前的{{\boldsymbol{\chi}} _{n,c - 1}} 时间步长;d 为控制间隔距离的膨胀因子;{{\boldsymbol{g}}_s} 为核大小为s 的过滤器;r - ds 为卷积过程中{{\boldsymbol{\chi}} _{n,c - 1}} 的时间步长.门控时间卷积网络模块输出为
{\boldsymbol{H}} = {\boldsymbol{M}} \odot \sigma \left( {\boldsymbol{Q}} \right). (11) 2. 实验及结果分析
2.1 数据集
利用Guo等[25]发布的两个高速公路交通数据集PEMSD4和PEMSD8进行实验,检验STACNN模型的预测性能. PEMSD4和PEMSD8来自美国加利福利亚洲交通局的PeMS (performance measurement system)系统,该系统在加利福利亚州主要市区的高速公路上部署了超过39000个传感器. 其中,PEMSD4包含旧金山湾区29条路段的307个传感器2个月的交通流量数据以及地理信息,PEMSD8包含圣贝纳迪诺8条路段的170个传感器2个月的交通流量数据以及地理信息,地理信息记录了交通传感器节点之间的距离.
采用与STGCN模型相同的数据预处理程序[17],传感器的数据每30 s实时收集一次,每5 min汇总一次,每个传感器每天包含288个数据点(每个数据点表示5 min的总交通流量数据),采用线性插值方法填充数据清除后的缺失值,Z-score方法归一化输入数据. 数据集按时间顺序划分,其中,60%用于训练,20%用于验证,20%用于测试. 表1中提供了详细的数据集统计信息.
表 1 数据集描述Table 1. Dataset description数据集 传感器数/个 时间范围 数据点/个 PEMSD4 307 2018年1月1日—
2月28日16992 PEMSD8 170 2016年7月1日—
8月31日17856 2.2 实验设置
为了评估STACNN模型的性能,应用三种广泛使用的指标来评估模型的性能,即平均绝对误差(mean absolute error,MAE)、均方根误差(root mean square error,RMSE)和平均绝对百分比误差(mean absolute percentage error,MAPE)[17].
实验在Linux服务器(CPU:Intel Xeon W-2133@3.6 GHz, GPU:GTX 1070Ti 8 GB, CUDA 10, Python 3.6, Tensorflow-GPU 1.14.0)上编译和测试.
当
K = 3 时,模型的预测性更优[17],因此采用K = 3 测试STACNN模型. STACNN模型中所有时空块的卷积层都使用64个卷积核,时空块中2个Gated-TCN的膨胀因子分别设置为1和2. 本文使用1 h (12个数据点)的历史时间序列长度来预测未来15、30、45、60 min (3、6、9、12个数据点)的交通流量. 使用Adam优化器训练模型,初始学习率为0.01. 消融模型STACNN-NA (STACNN-not Attention)和STACNN-NT (STACNN-not TCN)来验证空间注意力机制和膨胀因果卷积对STACNN模型性能的影响,其设置与STACNN模型设置相同. 其中,STACNN-NA模型去除了STACNN模型的空间注意力机制模块,STACNN-NT模型将STACNN模型的膨胀因果卷积替换成一维卷积.2.3 实验及分析
为直观地给出模型每次计算后的输入及输出,以数据集PEMSD4为例,其中,每次模块的输出数据作为下个模块的输入数据. STACNN模型总共由4个Gated-TCN、2个GCN + Attention和1个FC模块构成. STACNN模型输入1个
12 \times 307 的二维矩阵数据,首先,经过第1个Gated-TCN计算后得到的输出为10 \times 307 二维矩阵;经过第1个GCN + Attention计算后得到的输出为10 \times 307 二维矩阵;经过第2个Gated-TCN计算后得到的输出为6\; \times 307 二维矩阵;经过第3个Gated-TCN计算后得到的输出为4 \times 307 二维矩阵;经过第2个GCN + Attention计算后得到的输出为4 \times 307 二维矩阵. 由于第4个Gated-TCN的膨胀因子为2,需将4 \times 307 的二维矩阵通过全连接映射为5 \times 307 的二维矩阵,然后,经过第4个Gated-TCN计算得到的输出为1 \times 307 二维矩阵,最后,根据不同的预测时间步长3、6、9、12,上一个模块的输出经过FC层计算得到最终输出分别为3 \times 307 、6 \times 307 、9 \times 307 、12 \times 307 的二维矩阵数据.为了检验STACNN模型的性能,选择与以下基线模型进行对比:
HA[1]主要使用最近12个时间片的平均值来预测下一个值;VAR[7]可以捕获所有交通流量序列之间的关系;LSTM[11]常用于处理时间序列数据;STGCN[17]是基于时空方法进行交通流量预测;T-GCN[16]应用于基于城市路网的交通预测任务.
STACNN模型与所有基线模型在PEMSD4和PEMSD8数据集上进行15、30、45、60 min预测的性能对比及分析,并完成消融实验及分析.
表2是所有模型1 h流量预测的结果. 可以看出,就所有评估指标而言,STACNN在两个数据集中均达到了最佳性能,说明本文所提出的方法对非线性和复杂的交通流量数据具有更优的建模能力. 其中,同时考虑时间和空间相关性的T-GCN、STGCN和本文模型,优于传统的深度学习模型LSTM. STACNN模型与基线模型中性能良好的STGCN模型相比,本文模型预测结果的MAE值在数据集PEMSD4、PEMSD8上分别提高2.79%、1.18%,MAPE值分别提高1.00%、0.46%,RMSE值分别提高3.80%、1.25%.
表 2 不同方法在PEMSD4和PEMSD8上进行1 h流量预测的性能对比Table 2. Performance comparison of different methods for one-hour traffic prediction on PEMSD4 and PEMSD8% 模型 PEMSD4 PEMSD8 MAE MAPE RMSE MAE MAPE RMSE HA[1] 38.56 28.17 56.85 32.06 20.34 47.51 VAR[7] 30.68 21.51 46.92 25.60 16.94 37.51 LSTM[11] 31.77 28.65 44.84 28.81 29.61 40.80 T-GCN[16] 28.04 22.81 41.21 24.01 13.95 33.98 STGCN[17] 26.45 16.23 41.39 21.94 12.32 33.59 STACNN-NT 24.40 15.76 38.45 21.42 12.02 33.11 STACNN-NA 25.15 16.25 38.65 21.41 12.60 33.10 STACNN 23.66 15.23 37.40 20.76 11.86 32.34 为了验证空间注意力机制和膨胀因果卷积对模型的影响,对STACNN模型进行消融实验. 表2中的STACNN-NA在没有空间注意力机制模块的情况下获得了比基线模型更好的结果,表明膨胀因果卷积在提取长时间序列信息方面有优势. STACNN-NT使用一维卷积替换膨胀因果卷积也获得了较好的结果,表明自适应学习注意力矩阵的空间注意力机制可以有效地提取空间动态相关性信息. 在时间消耗结果方面,如表3所示,STACNN-NA模型在PEMSD4和PEMSD8数据集上训练迭代的平均时间消耗相比STGCN模型更少,这是因为膨胀因果卷积通过跳过部分输入进行计算,使得训练参数变少,更加容易训练. 由于空间注意机制需要训练的参数多,STACNN-NT模型相比STGCN模型迭代训练的时间更长. 因此,STACNN模型在迭代训练的时效性稍弱于STGCN模型. 总体而言,结合膨胀因果卷积与空间注意力机制的STACNN模型与基线模型相比性能有所提升,说明引入的空间注意力机制和膨胀因果卷积在预测交通流量时都具有积极的贡献.
表 3 数据集训练的时间消耗Table 3. Time consumption of training on datasetss 模型 PEMSD4 PEMSD8 STGCN 121.03 69.20 STACNN-NA 98.71 45.22 STACNN-NT 235.57 110.57 STACNN 197.52 90.51 如图3所示,随着预测时间间隔的增加,各种方法的预测性能随之变化. 仅考虑时间相关性的HA和LSTM模型在短期预测中可以获得良好的结果. 但是,随着预测时间间隔的增加,其预测精度明显下降. 相比之下,VAR的性能下降慢于HA和LSTM模型,这主要是因为VAR同时考虑时间和空间相关性信息. 深度学习方法的误差随着预测时间间隔的增加而缓慢增加,并且其整体性能良好. 其中,STACNN模型几乎始终都具有最佳的预测性能,特别是在长期预测中,STACNN模型与基线模型之间的差异更为显著,这表明该模型可以更好地提取时空动态相关性特征,从而进一步提高交通流量的预测精度.
3. 结 论
1) 本文引入膨胀因果卷积神经网络用于捕获交通流量的时间动态相关性,解决了长短时记忆网络和一维卷积神经网络在学习长时间序列时发生梯度消失或梯度爆炸的问题,并且能够加速模型训练.
2) 针对具有拓扑结构的路网,本文引入空间注意力机制弥补了图卷积神经网络提取交通流量空间动态相关性特征不足的问题.
3) 在两个公开数据集PEMSD4和PEMSD8上进行性能评估,并与HA、VAR、LSTM、STGCN和T-GCN模型进行对比实验. 实验结果表明,本文所提出的基于时空注意力卷积神经网络的交通流量预测模型STACNN在不同的预测时间范围下均达到最优的预测性能,并且能够从交通流量数据中更充分地挖掘时空动态相关性.
-
表 1 数据集描述
Table 1. Dataset description
数据集 传感器数/个 时间范围 数据点/个 PEMSD4 307 2018年1月1日—
2月28日16992 PEMSD8 170 2016年7月1日—
8月31日17856 表 2 不同方法在PEMSD4和PEMSD8上进行1 h流量预测的性能对比
Table 2. Performance comparison of different methods for one-hour traffic prediction on PEMSD4 and PEMSD8
% 模型 PEMSD4 PEMSD8 MAE MAPE RMSE MAE MAPE RMSE HA[1] 38.56 28.17 56.85 32.06 20.34 47.51 VAR[7] 30.68 21.51 46.92 25.60 16.94 37.51 LSTM[11] 31.77 28.65 44.84 28.81 29.61 40.80 T-GCN[16] 28.04 22.81 41.21 24.01 13.95 33.98 STGCN[17] 26.45 16.23 41.39 21.94 12.32 33.59 STACNN-NT 24.40 15.76 38.45 21.42 12.02 33.11 STACNN-NA 25.15 16.25 38.65 21.41 12.60 33.10 STACNN 23.66 15.23 37.40 20.76 11.86 32.34 表 3 数据集训练的时间消耗
Table 3. Time consumption of training on datasets
s 模型 PEMSD4 PEMSD8 STGCN 121.03 69.20 STACNN-NA 98.71 45.22 STACNN-NT 235.57 110.57 STACNN 197.52 90.51 -
[1] NAGY A M, SIMON V. Survey on traffic prediction in smart cities[J]. Pervasive and Mobile Computing, 2018, 50: 148-163. doi: 10.1016/j.pmcj.2018.07.004 [2] 刘静,关伟. 交通流预测方法综述[J]. 公路交通科技,2004,21(3): 82-85.LIU Jing, GUAN Wei. A summary of traffic flow forecasting methods[J]. Journal of Highway Transportation Research Development, 2004, 21(3): 82-85. [3] 周晓,唐宇舟,刘强. 基于卡尔曼滤波的道路平均速度预测模型研究[J]. 浙江工业大学学报,2020,48(4): 392-396,404.ZHOU Xiao, TANG Yuzhou, LIU Qiang. Research on road average speed prediction model based on kalman filter[J]. Journal of Zhejiang University of Technology, 2020, 48(4): 392-396,404. [4] OKUTANI I, STEPHANEDES Y J. Dynamic prediction of traffic volume through Kalman filtering theory[J]. Transportation Research Part B: Methodological, 1984, 18(1): 1-11. doi: 10.1016/0191-2615(84)90002-X [5] HAMED M M, AL-MASAEID H R, SAID Z M B. Short-term prediction of traffic volume in urban arterials[J]. Journal of Transportation Engineering, 1995, 121(3): 249-254. doi: 10.1061/(ASCE)0733-947X(1995)121:3(249) [6] 李洁,彭其渊,杨宇翔. 基于SARIMA模型的广珠城际铁路客流量预测[J]. 西南交通大学学报,2020,55(1): 41-51. doi: 10.35741/issn.0258-2724.55.1.41LI Jie, PENG Qiyuan, YANG Yuxiang. Passenger flow prediction for Guangzhou−Zhuhai intercity railway based on SARIMA model[J]. Journal of Southwest Jiaotong University, 2020, 55(1): 41-51. doi: 10.35741/issn.0258-2724.55.1.41 [7] ZIVOT E, WANG J H. Modeling financial time series with S-PLUS®[M]. 2nd editon. New York: Springer, 2006: 385-429. [8] 姚智胜,邵春福,高永亮. 基于支持向量回归机的交通状态短时预测方法研究[J]. 北京交通大学学报,2006,30(3): 19-22. doi: 10.3969/j.issn.1673-0291.2006.03.005YAO Zhisheng, SHAO Chunfu, GAO Yongliang. Research on methods of short-term traffic forecasting based on support vector regression[J]. Journal of Beijing Jiaotong University, 2006, 30(3): 19-22. doi: 10.3969/j.issn.1673-0291.2006.03.005 [9] 张晓利,贺国光,陆化普. 基于K-邻域非参数回归短时交通流预测方法[J]. 系统工程学报,2009,24(2): 178-183.ZHANG Xiaoli, HE Guoguang, LU Huapu. Short-term traffic flow forecasting based on K-nearest neighbors non-parametric regression[J]. Journal of Systems Engineering, 2009, 24(2): 178-183. [10] 陈丹,胡明华,张洪海,等. 基于贝叶斯估计的短时空域扇区交通流量预测[J]. 西南交通大学学报,2016,51(4): 807-814. doi: 10.3969/j.issn.0258-2724.2016.04.028CHEN Dan, HU Minghua, ZHANG Honghai, et al. Short-term traffic flow prediction of airspace sectors based on Bayesian estimation theory[J]. Journal of Southwest Jiaotong University, 2016, 51(4): 807-814. doi: 10.3969/j.issn.0258-2724.2016.04.028 [11] SHAO H X, SOONG B H . Traffic flow prediction with long short-term memory networks (LSTMS)[C]// Proceedings of 2016 IEEE Region 10 Conference (TENCON). Singapore: IEEE, 2016: 2986-2989. [12] 刘明宇,吴建平,王钰博,等. 基于深度学习的交通流量预测[J]. 系统仿真学报,2018,30(11): 4100-4105,4114. doi: 10.16182/j.issn1004731x.joss.201811007LIU Mingyu, WU Jianping, WANG Yubo, et al. Traffic flow prediction based on deep learning[J]. Journal of System Simulation, 2018, 30(11): 4100-4105,4114. doi: 10.16182/j.issn1004731x.joss.201811007 [13] SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//29th Annual Conference on Neural Information Processing Systems. Montreal: NIPS, 2015: 802-810 [14] YAO H X, TANG X F, WEI H, et al. Revisiting spatial-temporal similarity: a deep learning framework for traffic prediction[C]//Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence. Honolulu: AAAI, 2019: 5668-5675. [15] ZHANG J, ZHENG Y, QI D. Deep spatio-temporal residual networks for citywide crowd flows prediction[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2016: 1655-1661. [16] ZHAO L, SONG Y J, ZHANG C, et al. T-GCN: a temporal graph convolutional network for traffic prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(9): 3848-3858. doi: 10.1109/TITS.2019.2935152 [17] YU B, YIN H T, ZHU Z X. Spatio-temporal graph convolutional networks: a deep learning framework for traffic forecasting[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. Stockholm: IJCAI, 2018: 3634-3640. [18] TEDJOPURNOMO D A, BAO Z F, ZHENG B H, et al. A survey on modern deep neural network for traffic prediction: trends, methods and challenges[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(4): 1544-1561. [19] VELIKOVI P, CUCURULL G, CASANOVA A, et al. Graph attention networks[C]//6th International Conference on Learning Representations. Vancouver: ICLR, 2018: 1-12 [20] FENG X C, GUO J, QIN B, et al. Effective deep memory networks for distant supervised relation extraction[C]//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence. Melbourne: IJCAI, 2017: 4002-4008. [21] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks [C]//5th International Conference on Learning Representations. Toulon: ICLR, 2017: 1-14 [22] SIMONOVSKY M, KOMODAKIS N. Dynamic edge-conditioned filters in convolutional neural networks on graphs[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 29-38. [23] YU F , KOLTUN V. Multi-scale context aggregation by dilated convolutions[C]//4th International Conference on Learning Representations. San Juan: ICLR, 2016: 1-13. [24] DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[C]//34th International Conference on Machine Learning. Sydney: IMLS, 2017: 1551-1559. [25] GUO S N, LIN Y F, FENG N, et al. Attention based spatial-temporal graph convolutional networks for traffic flow forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Honolulu: AAAI, 2019: 922-929. 期刊类型引用(6)
1. 孟春成,亐道远,段晓晨. 城市轨道交通土建工程造价非线性预测与反演. 西南交通大学学报. 2025(01): 137-146 . 本站查看
2. Zhang Xijun,Li Zhe. KNN spatio-temporal attention graph convolutional network for traffic flow repairing. The Journal of China Universities of Posts and Telecommunications. 2025(01): 48-60 . 必应学术
3. 温秋平. 基于动态图卷积网络的分层交通流预测模型. 城市建设理论研究(电子版). 2025(11): 196-199 . 百度学术
4. 周烽,王世璞,张坤鹏. 基于图Transformer网络的城市路网短时交通流预测模型. 科学技术与工程. 2024(10): 4307-4316 . 百度学术
5. 王润祺,郝妍熙,胡华,方勇,刘志钢. 基于时空关联的时空图卷积神经网络城市轨道交通进站客流预测. 城市轨道交通研究. 2024(09): 91-96 . 百度学术
6. 丁新伟,秦倩,阚犇,刘骐畅,贾驰. 基于图卷积神经网络的航站楼旅客流时空分布预测. 中国民航大学学报. 2023(06): 31-36 . 百度学术
其他类型引用(12)
-