Reinforcement Learning Braking Control of Maglev Trains Based on Self-Learning of Hybrid Braking Features
-
摘要:
精准、平稳停车是磁浮列车自动驾驶制动控制的重要目标. 中低速磁浮列车停站制动过程受到电-液混合制动状态强耦合等影响,基于制动特性机理模型的传统制动控制方法难以保障磁浮列车的停车精度和舒适性. 本文提出一种基于混合制动特征自学习的磁浮列车强化学习制动控制方法. 首先,采用长短期记忆网络建立磁浮列车混合制动特征模型,结合磁浮列车运行环境和状态数据进行动态制动特征自学习;然后,根据动态特征学习结果更新强化学习的奖励函数与学习策略,提出基于深度强化学习的列车制动优化控制方法;最后,采用中低速磁浮列车现场运行数据开展仿真实验. 实验结果表明:本文所提出的制动控制方法较传统方法的舒适性和停车精度分别提高41.18%和22%,证明了本文建模与制动优化控制方法的有效性.
Abstract:Accurate and smooth parking is an essential goal for automatic driving braking control of maglev trains. The strong coupling of the electro-hydraulic hybrid braking state affects the medium and low-speed maglev trains during the stopping braking process, and the traditional braking control method based on the theoretical model of braking features makes it difficult to guarantee the parking accuracy and comfort of the maglev train. This paper proposed a reinforcement learning braking control method for maglev trains based on self-learning of hybrid braking features. First, a long short-term memory (LSTM) network was used to establish a hybrid braking feature model for maglev trains, and the self-learning of dynamic braking features was performed based on the operating environment and status data of maglev trains. Then, the reward function and learning strategy of reinforcement learning were updated according to the learning results of dynamic features, and a train braking optimization control method based on deep reinforcement learning was proposed. Finally, simulation experiments were carried out by using on-site operation data of medium and low-speed maglev trains. The experimental results show that the braking control method proposed in this paper improves comfort and parking accuracy by 41.18% and 22%, respectively, compared with the traditional method. It proves the effectiveness of the modeling and braking optimization control method in this paper.
-
高速列车的行驶引起了许多空气动力学问题,其中列车行驶过程产生的脉动风压所带来的问题受到广泛关注. 脉动风压产生于列车在高速行驶下对其周围的空气所产生的强烈扰动,当行驶的列车通过声屏障时,这一扰动将会加剧,使周围的空气产生的空气压力发生突变,形成一种瞬态的冲击压力,在很短的时间内(约几十毫秒)相继出现正、负压力峰值,这种瞬态压力冲击即为列车驶过声屏障时产生的压力波,即称为脉动风压. 刘海涛[1]曾对比分析得到了不同桥宽、不同车型、不同速度下脉动风压的分布规律,这种压力波的存在实际会对声屏障结构产生巨大影响,如果不加以重视,会引起声屏障许多结构问题和疲劳问题,很多学者都曾针对脉动风压开展了相关研究. 声屏障风荷载体型系数上,刘磊等[2]通过缩尺风洞实验,确定了声屏障迎风面净体型系数超过1.40,背风面体型系数接近0.30. 郑史雄等[3]建议桥梁声屏障的风荷载体型系数取1.65,路基声屏障的风荷载体型系数取1.99. 声屏障脉动风压响应上,焦长洲等[4]对脉动风压导致的声屏障结构振动进行了研究. 邓跞等[5]研究了金属立柱插板式声屏障在脉动风压静态作用下的静力响应. 刘功玉[6]研究了不同车速下声屏障结构在脉动风压作用下动力响应规律,发现随着车速的提高,列车经过声屏障区域时的气动压力和气动吸力也越来越大. 康健[7]研究了不同中心距的声屏障结构在列车速度为350 km/h时产生的脉动风压作用下疲劳性能规律. 张田等[8]发现防风板的应力远高于立柱的应力,疲劳问题也更为显著. 马驰[9]研究了货运铁路大型全封闭声屏障结构,发现较大的疲劳荷载作用下声屏障柱脚螺栓会发生轻微松动,在设计过程中可以严格控制拧紧力矩防止螺栓松动发生,并定期对螺栓进行检查. 结构优化方面,申真真[10]研究了不同的单元壁厚度和材料的高速铁路插板式冷弯声屏障的静动力响应及疲劳性能规律,提出了一种综合效益突出的结构组合. 赵允刚等[11]针对采用声屏障时高速列车运行过程中表面气动阻力较大的问题,提出利用减载式声屏障降低列车运行过程中受到的气动阻力. 苏卫青[12]研究了高速铁路声源特性、作用于高速铁路声屏障的气动压力和声屏障结构的动力响应. 针对前述的研究,发现目前针对不同顶部开口长度的双侧封闭式声屏障和不同顶部覆盖长度的单侧封闭式声屏障在脉动风压作用下的结构响应和疲劳性能规律的研究较少,事实上,顶部结构变化对列车行驶过程中气流的释放和结构优化有一定的意义. 本文研究不同顶部开口长度的双侧封闭式声屏障和不同顶部覆盖长度的单侧封闭式声屏障受力特征规律,并探究声屏障的关键连接部位耐久性、疲劳特性,为高铁桥上半封闭式声屏障的设计提供有力的技术支持.
1. 工程概况
某高铁声屏障结构采用单双侧封闭直立型金属插板式声屏障形式,列车运行车速为350 km/h,金属插板式声屏障主要由 H 型钢立柱、H 型钢底板、铝合金单元板、橡胶等结构组成,钢架部分采用Q345- B焊接工字钢;铝合金单元板采用标号不低于5A03、厚度不小于1.5 mm的铝合金材料,面板和背板需进行铬酸钝化或类似的预处理;通透吸声板采用厚度不小于20.0 mm的透明板,具有防撞击、防破损保护措施及防鸟撞击标志. 单元板及透明板四面加设铝合金框,铝合金框与型钢立柱间采用插入式柔性连接[11].
声屏障结构截面沿顶部直线段分割情况及列车所在位置(图示右轨道)共分为3部分:近轨竖直声屏障部分、远轨竖直声屏障部分及顶部横向声屏障部分. 声屏障结构截面示意如图1所示.
2. 模型建立过程
本文探讨双侧封闭声屏障顶部开口间距为(即顶部不设置通透隔声板和吸声板)2、4、6、8 m以及单侧封闭式声屏障顶部覆盖长度为(即顶部设置通透隔声板)2、4、6、8 m 8种情况下声屏障结构的受力特征. 工况参数如表1所示.
表 1 工况参数Table 1. Operating parameters工况参数名称 取值 车型 CRH3 列车速度/(km•h−1) 350 双侧封闭式声屏障顶部
开口间距/m2、 4、 6、 8 单侧封闭式声屏障顶部
覆盖长度/m2、 4、 6、 8 2.1 脉动风压时程函数提取
本文脉动风压计算及结果参照李小珍等[13-14]的脉动风压的CFD (computation fluid dynamics)模型,该模型为行进中的高速铁路半封闭声屏障的列车通过开口间距双侧封闭声屏障和顶部不同的覆盖长度单侧封闭声屏障产生的. 用动态铺层技术模拟移动列车表面流场,动网格部分模拟了高速列车表层及列车周围因列车高速前进,受列车移动影响最大的空气,模型如图2所示. 在此CFD模型中,近轨竖直声屏障部分分为17个区域,自下到上分别用N1~N17标记测点;远轨竖直声屏障部分设置17个区域,自下到上分别用F1~F17标记测点(单侧封闭式声屏障不布置);顶部横向声屏障部分根据顶部开口间距的不同区域有所变化,靠近轨一侧由近轨至开口处用T1~T10标记测点,靠远轨用T15~T24标记测点,开口间距每增加2 m,顶部两侧测点从大序号依次各减少两个. 测点的整体布置 (双侧封闭式声屏障顶部开口间距2 m和单侧封闭式声屏障顶部覆盖长度8 m) 如图3.
一趟CRH3完整驶过后,记录各个测点随时间变化的受力情况,得到脉动风压作用的时程曲线,梳理罗云柯[14]模型数据结果,以双侧封闭式顶部开口2 m模型为例,声屏障近轨、远轨、顶部风压时程函数如图4,结果用于整体模型动力计算.
考虑最不利的静力风压情况,提取其中风压极值计算结果如图5,结果用于整体模型静力计算.
2.2 整体模型建立
得到脉动风压的时程曲线后,利用midas civil有限元软件分别建立了顶部不同的开口间距双侧封闭式声屏障及顶部不同覆盖长度的单侧封闭式声屏障整体模型,用于分析自然风、静力风压和脉动风压分别作用下,声屏障立柱顶部位移、立柱根部弯矩、轴力及应力计算结果,并计算动力放大系数.
模型共截取10个声屏障节段,声屏障结构共计长度20 m,宽度间距12 m,高度7.75 m. 梁体材料选用C30,采用梁单元模拟;声屏障立柱材料选用Q345钢,采用梁单元模拟;声屏障铝合金复合吸声板及通透吸声板根据实际设计参数进行材料拟定,材料性能指标见表2和表3,采用板单元模拟.
表 2 铝合金复合吸声板的性能指标Table 2. Performance indexes of aluminum alloy composite sound absorption board指标名称 性能指标 降噪系数 ≥ 0.7 隔声量 ≥ 25 dB 面密度 ≤ 40 kg/m2,且≥ 20 kg/m2 抗风压性能 ≥ 8.0 kPa 抗冲击 符合《铁路声屏障声学构件技术要求和测试方法》(TB/T 3122—2010) 抗火性能 防火等级应满足《建筑材料及制品燃烧性能分级》(GB 8624—2012)规定的 B1 级及以上 防腐蚀 声屏障声学构件的金属部件的防腐蚀年限应 ≥ 25 a 抗变形性能 符合《铁路声屏障声学构件技术要求和测试方法》(TB/T 3122—2010)最大弹性挠度 ≤ L/100 耐候性能 符合《铁路声屏障声学构件技术要求和测试方法》(TB/T 3122—2010) 使用年限 ≥ 25 a 表 3 通透隔声板的性能指标Table 3. Performance indexes of transparent sound insulation board指标名称 性能指标 隔声量 ≥ 25 dB 密度 ≤ 1 200 kg/m3 透光率 透光率不应小于 90%,10 年内透光率下降为 10% 拉伸强度 ≥ 70 MPa 弯曲强度 ≥ 98 MPa 弹性模量 ≥ 3 100 MPa 断裂伸长率 ≥ 4% 防火性能 复合《建筑材料的燃烧等级分级》(GB 8624—2012)规定的 B1 级及以上 0~50 ℃ 以内线性热膨胀系数 ≤ 0.000 07 允许最高长期使用温度 ≤ 70 ℃ 软化温度 ≥ 110 ℃ 抗冲击 符合《铁路声屏障声学构件技术要求和测试方法》(TB/T 3122—2010) 板厚 ≥ 20 mm 使用年限 ≥ 25 a 结构约束关系上,立柱底部与梁体固结,立柱与声屏障板之间采用弹性约束模拟纵桥向橡胶连接作用,声屏障板与板之间释放部分端部约束模拟真实接触效果.
2.3 瑞利阻尼
振型是结构的一个重要动力特性,振型的数量和各阶振型对结构总体反应的贡献直接影响到结构地震反应的计算结果.
本文通过振型分解将多自由度体系的振动转化为单自由度体系振动的组合问题进行计算,模型结构的质量和刚度分布不均匀,振型分解反应谱法所需的振型数取振型参与质量达到总质量的90%时所需的振型数,8个模型所需振型数为93~101个. 若假设阻尼与质量矩阵和刚度矩阵的组合成比例,则可表示为
c=αm+βk, (1) 式中:
c 为阻尼矩阵;α 和β 均为与频率相关的参数;m 和k 分别为质量矩阵和刚度矩阵.这种阻尼称为瑞利阻尼. 利用瑞利阻尼法公式计算得到各阶瑞利阻尼比为
α2ω+ωβ2=ξ, (2) 式中:
ω 为模态对应频率;ξ 为阻尼比.依据钢结构抗震要求[15-16],
ξ 取0.02,相关参数α 和β 是随频率变化的,用频率范围的下限和上限代入式(2),联立求解得到各个声屏障结构的α 和β ,结果如表4.各个声屏障结构的
α 和β 代入瑞利阻尼公式,计算得到声屏障结构各阶振型的阻尼比,用于动力计算.表 4 各个声屏障结构的α 和β Table 4. Values ofα andβ of each sound barrier structure结构形式 参数 开口间距/m 2 4 6 8 双侧封闭式
声屏障α 0.46773 0.47596 0.48947 0.50614 β 0.00063 0.00060 0.00054 0.00048 单侧封闭式
声屏障α 0.67421 0.55969 0.51430 0.42194 β 0.00034 0.00041 0.00051 0.00060 2.4 风压时程函数输入
加载原则上,静力作用时,考虑最不利的受力情况,提取各位置脉动风压的峰值,按静力方式作用于声屏障结构,得到最大静力响应结果a;动力计算采用振型叠加法,利用前述瑞利阻尼法计算所得的每一阶振型的阻尼进行动力计算,动力计算分析采用CFD,取一个荷载子步为0.005 s动力时长共30 s,按各个测点分块,按2 m一个节间,根据时程递进,将脉动风压时程曲线施加于整个声屏障结构上得到静力响应同一测点的动力响应结果b. b/a得到结构动力放大系数.
3. 计算结果
不同开口形式的声屏障结构在立柱的位移、应力、弯矩、轴向力、水平力的峰值位置基本一致,最大位移位置主要分布在近轨部分的立柱顶部;最大应力、最大弯矩位置主要分布在近轨部分的立柱底部;立柱结构最大轴力位置分布在远轨部分的立柱底部;立柱结构最大水平力位置分布在近轨部分的立柱底部,以双侧顶部开口间距2 m的双侧封闭声屏障为例,静力动力计算结果示意如图8、9.
所有声屏障结构计算结果汇总见表5.
从计算结果来看,对于双侧封闭式声屏障,随着顶部开口间距的增大,响应减小,对于开口4、6 m内力变化影响不大,开口2 m的立柱动应力是开口8 m的立柱动应力的1.15倍,放大系数相差0.12,对于单侧封闭式声屏障中,覆盖的长度增加,响应增大,覆盖长度4~6 m后有较大变化,覆盖8 m的立柱动应力是覆盖2 m的立柱动应力的1.28倍,放大系数相差0.37.
表 5 受力特征结果Table 5. Force characteristic results型式 类别 立柱底部
应力/MPa立柱顶部位移/mm 立柱弯矩/(kN•m) 轴向力/kN 水平力/kN 双侧封闭式顶部开口间距 2 m 动力作用 20.60 5.82 37.24 19.42 52.09 放大系数 2.10 3.75 2.10 3.26 1.94 静力作用 9.62 1.49 17.48 5.50 26.51 双侧封闭式顶部开口间距 4 m 动力作用 19.55 5.47 34.90 17.14 51.45 放大系数 2.03 4.08 2.00 3.14 1.83 静力作用 9.60 1.54 17.38 5.50 25.95 双侧封闭式顶部开口间距 6 m 动力作用 19.48 5.09 34.81 16.90 50.35 放大系数 2.02 3.43 2.00 3.15 1.97 静力作用 8.99 1.51 16.27 3.09 24.20 双侧封闭式顶部开口间距 8 m 动力作用 17.88 4.62 32.18 11.31 45.84 放大系数 1.98 3.75 1.97 3.73 2.01 静力作用 8.83 1.34 15.99 2.35 23.31 单侧封闭式顶部覆盖长度 2 m 动力作用 19.02 5.09 34.37 8.24 51.10 放大系数 2.15 3.80 2.15 3.50 2.19 静力作用 9.24 1.49 16.74 2.62 27.41 单侧封闭式顶部覆盖长度 4 m 动力作用 20.10 5.33 36.34 5.33 51.15 放大系数 2.18 3.61 2.17 2.03 2.00 静力作用 9.62 1.54 17.42 1.74 26.28 单侧封闭式顶部覆盖长度 6 m 动力作用 23.19 5.89 41.56 6.16 59.75 放大系数 2.41 3.41 2.39 3.54 2.01 静力作用 9.69 1.52 17.51 2.65 26.42 单侧封闭式顶部覆盖长度 8 m 动力作用 24.44 6.27 44.08 6.57 62.25 放大系数 2.52 4.13 2.52 2.48 2.36 静力作用 9.78 1.55 17.74 5.95 26.83 4. 结 论
1) 立柱结构最大位移位置分布在近轨部分的立柱顶部;立柱结构最大弯矩位置分布在近轨部分的立柱底部;立柱结构最大轴力位置分布在远轨部分的立柱底部;立柱结构最大水平力位置分布在近轨部分的立柱底部;立柱结构最大应力位置分布在近轨部分的立柱底部.
2) 双侧封闭式声屏障结构中,立柱最大弯矩、最大应力和放大系数随着顶部开口间距的增加有减小的趋势;同理,单侧封闭式声屏障中,立柱最大弯矩、最大应力和动力放大系数随着顶部覆盖程长度的增加有增大的趋势.
3) 双侧封闭式声屏障中,最不利结构为顶部开口间距2 m的双侧封闭式声屏障结构,单侧封闭式声屏障中,最不利结构为顶部覆盖8 m的单侧封闭式声屏障结构. 两种结构形式不同,单侧封闭式声屏障内力变化对顶部覆盖长度更为敏感,且单侧封闭式引起的动力响应更大,可能是由于双侧封闭后,远轨侧同样受到了脉动风作用,近远轨侧脉动风的作用叠加减小了内力响应.
-
表 1 仿真列车参数
Table 1. Simulation train parameters
参数类别 参数特性 列车质量/t 75 线路最高限速/(km·h−1) 80 编组数量 3 最大常用制动力/kN 74.23 最大常用减速度/(m·s−2) 0.96 线路最大坡度/‰ 51.01 表 2 算法主要训练参数
Table 2. Main training parameters for algorithm
参数 BFS-DQN DQN LSTM 迭代次数/次 500 LSTM 学习率 0.001 LSTM 样本批量 50 单次训练最大步数/步 80 80 训练最大次数/次 20000 20000 Q 网络学习率 0.001 0.001 Q 网络更新频率 100 100 样本大小 32 32 经验池容量 2000 2000 折扣因子 0.96 0.96 贪婪率初始值 0.9 0.9 贪婪率最终值 0.1 0.1 表 3 算法训练结果
Table 3. Training results for algorithm
训练结果 BFS-DQN DQN 平均奖励值 33.5 27.8 平均状态转移次数/次 70 72 平均停车误差/m 0.10 0.15 平均加速度变化/(cm·s−3) 10.84 11.78 平均制动时间/s 14.0 14.4 表 4 算法性能
Table 4. Algorithm performance
制动控制策略 RMSE SD BFS-DQN 0.099048 0.070652 DQN 0.142815 0.110446 传统 ATO 0.276103 0.140018 表 5 停车误差分布情况
Table 5. Distribution of parking errors
次 停车误差/m BFS-DQN DQN ATO x<−0.5 0 0 3 −0.5⩽x⩽−0.3 0 2 3 −0.3<x⩽0 18 19 16 0<x⩽0.3 32 29 20 0.3<x⩽0.5 0 0 6 x>0.5 0 0 2 -
[1] 邓自刚,刘宗鑫,李海涛,等. 磁悬浮列车发展现状与展望[J]. 西南交通大学学报,2022,57(3): 455-474,530.DENG Zigang, LIU Zongxin, LI Haitao, et al. Development status and prospect of maglev train[J]. Journal of Southwest Jiaotong University, 2022, 57(3): 455-474,530. [2] 吴萌岭,马天和,田春,等. 列车制动技术发展趋势探讨[J]. 中国铁道科学,2019,40(1): 134-144.WU Mengling, MA Tianhe, TIAN Chun, et al. Discussion on development trend of train braking technology[J]. China Railway Science, 2019, 40(1): 134-144. [3] 李中奇,邢月霜. 动车组进站过程精准停车控制方法研究[J]. 系统仿真学报,2021,33(1): 149-158.LI Zhongqi, XING Yueshuang. Research on precision parking control method for EMU inbound process[J]. Journal of System Simulation, 2021, 33(1): 149-158. [4] 周嘉俊,吴萌岭,刘宇康,等. 基于改进史密斯预估器的列车制动减速度控制研究[J]. 同济大学学报(自然科学版),2020,48(11): 1657-1667.ZHOU Jiajun, WU Mengling, LIU Yukang, et al. Train braking deceleration control based on improved Smith estimator[J]. Journal of Tongji University (Natural Science), 2020, 48(11): 1657-1667. [5] 马天和,吴萌岭,田春. 城轨列车减速度反馈制动力闭环控制方法[J]. 仪器仪表学报,2021,42(4): 197-205.MA Tianhe, WU Mengling, TIAN Chun. Deceleration-feedback braking force closed-loop control method for urban rail train[J]. Chinese Journal of Scientific Instrument, 2021, 42(4): 197-205. [6] 崔俊锋,王长远,王琦,等. 中低速磁浮列车制动过程的时滞补偿预测控制[J]. 铁道科学与工程学报,2024,21(2):735-747.CUI Junfeng, WANG Changyuan, WANG QI, et al. Time-delay compensation predictive control for braking process of medium-low speed maglev train[J]. Journal of Railway Science and Engineering,2024,21(2):735-747. [7] YIN J T, SU S, XUN J, et al. Data-driven approaches for modeling train control models: comparison and case studies[J]. ISA Transactions, 2020, 98: 349-363. doi: 10.1016/j.isatra.2019.08.024 [8] LI Z, TANG T, GAO C H. Long short-term memory neural network applied to train dynamic model and speed prediction[J]. Algorithms, 2019, 12(8): 173.1-173.21. [9] YIN J T, NING C H, TANG T. Data-driven models for train control dynamics in high-speed railways[J]. Information Sciences:an International Journal, 2022, 600: 377-400. doi: 10.1016/j.ins.2022.04.004 [10] LIU H E, YANG L J, YANG H. Cooperative optimal control of the following operation of high-speed trains[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(10): 17744-17755. doi: 10.1109/TITS.2022.3163971 [11] LIU H E, YANG H, WANG D H. Robust speed prediction of high-speed trains based on improved echo state networks[J]. Neural Computing and Applications, 2021, 33(7): 2351-2367. doi: 10.1007/s00521-020-05096-y [12] JIANG S Y, GAO H J, WANG X H, et al. Deep reinforcement learning based multi-level dynamic reconfiguration for urban distribution network: a cloud-edge collaboration architecture[J]. Global Energy Interconnection, 2023, 6(1): 1-14. doi: 10.1016/j.gloei.2023.02.001 [13] QI X W, LUO Y D, WU G Y, et al. Deep reinforcement learning enabled self-learning control for energy efficient driving[J]. Transportation Research Part C:Emerging Technologies, 2019, 99: 67-81. doi: 10.1016/j.trc.2018.12.018 [14] YANG Y, LI J T, PENG L L. Multi-robot path planning based on a deep reinforcement learning DQN algorithm[J]. CAAI Transactions on Intelligence Technology, 2020, 5(3): 177-183. doi: 10.1049/trit.2020.0024 [15] 张淼,张琦,刘文韬,等. 一种基于策略梯度强化学习的列车智能控制方法[J]. 铁道学报,2020,42(1): 69-75.ZHANG Miao, ZHANG Qi, LIU Wentao, et al. A policy-based reinforcement learning algorithm for intelligent train control[J]. Journal of the China Railway Society, 2020, 42(1): 69-75. [16] 高豪,张亚东,郭进,等. 基于动态规划的列车节能运行两阶段优化方法[J]. 西南交通大学学报,2020,55(5): 946-954.GAO Hao, ZHANG Yadong, GUO Jin, et al. Two-stage optimization method of train energy-efficient operation based on dynamic programming[J]. Journal of Southwest Jiaotong University, 2020, 55(5): 946-954. [17] 蒋灵明,倪少权. 基于多智体强化学习的高效率货物列车运行动态调整方法[J]. 铁道学报,2023,45(8): 27-35.JIANG Lingming, NI Shaoquan. High-efficiency freight train rescheduling enabled by multi-agent reinforcement learning[J]. Journal of the China Railway Society, 2023, 45(8): 27-35. [18] SHANG M Y, ZHOU Y H, FUJITA H. Deep reinforcement learning with reference system to handle constraints for energy-efficient train control[J]. Information Sciences, 2021, 570: 708-721. doi: 10.1016/j.ins.2021.04.088 [19] LIU W T, SU S, TANG T, et al. A DQN-based intelligent control method for heavy haul trains on long steep downhill section[J]. Transportation Research Part C: Emerging Technologies, 2021, 129(10): 103249.1-103249.21 . [20] WANG H N, LIU N, ZHANG Y Y, et al. Deep reinforcement learning: a survey[J]. Frontiers of Information Technology & Electronic Engineering, 2020, 21(12): 1726-1744. [21] Wang Y, Chardonnet J R, Merienne F. Speed profile optimization for enhanced passenger comfort: An optimal control approach[C]//2018 21st International Conference on Intelligent Transportation Systems (ITSC). [S.l.]: IEEE, 2018: 723-728. [22] 万里鹏,兰旭光,张翰博,等. 深度强化学习理论及其应用综述[J]. 模式识别与人工智能,2019,32(1): 67-81.WAN Lipeng, LAN Xuguang, ZHANG Hanbo, et al. A review of deep reinforcement learning theory and application[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(1): 67-81. -