基于深度强化学习与风险矫正的智能车辆决策研究

时间：2024-06-19

詹吟霄，刘潇，梁军

（浙江大学工业控制技术国家重点实验室，杭州 310058）

近年来，为提高驾乘的舒适性和安全性，对智能车辆自动驾驶系统的研发显著加速。自动驾驶系统的结构从上至下可分为感知模块、决策规划模块和控制模块［1］。其中，决策模块负责各种离散的驾驶任务分解，如跟车、换道、超车等宏观指令的产生。同时，决策模块是上层感知与下层规划控制模块间的重要桥梁，它利用感知信息做出行为决策，并为下层规划控制提供目标引导。作为自动驾驶系统的“大脑”，先进的决策模块为安全、高效的自动驾驶提供了强有力的保障。

目前，智能车辆决策系统主要由基于规则、基于博弈论和基于学习的3类方法实现［2-5］。基于规则法是利用专家经验、交通规则等建立决策规则库，智能车辆则根据驾驶场景匹配合适的行为策略。其中，有限状态机（Finite State Machine，FSM）是一种常见的基于规则的决策方法，它由有限个状态组成，当前状态接收事件，并产生相应的动作，引起状态的转移［6］。但此类事先确定场景-规则的方法无法应对环境中的不确定性。此外，有限状态机法均需人为划分状态并制定状态转移规则，因而存在规则完备性的固有问题［7］。

基于博弈论法是将车辆的换道决策视为一种使自身利益最大的非合作博弈行为。该方法充分考虑具有博弈冲突车辆的行为交互，在解决换道冲突的过程中有较好的表现效果。KITA 等［8］首次将博弈论法引入到车辆匝道汇入场景中，换道车辆与目标车道车辆通过互相预测对方行为选择最佳决策。张妙然［9］利用信号传递博弈融合不同驾驶员的特性，设计了不同场景下不同风格驾驶员的收益函数，提出了一个混合交通流中的换道决策机制。但此类方法的博弈矩阵制定存在问题，车辆的决策组合制定通常是不完整的，无法将各类换道情况包含在内，适用条件有限，在突发情况或极端工况下，难以保证正常使用［10］。

基于学习法是通过适当的学习方式从数据中优化行驶策略，根据实时环境信息匹配合理的驾驶动作，主要以模仿学习（Imitation Learning，IL）［11-12］，强化学习（Reinforcement Learning，RL）［13］为代表。BOJARSKI 等［14］基于卷积神经网络（Convolutional Neural Networks，CNN），对车载视觉传感器的图像数据进行模仿，学习决策控制，并在不同道路场景中进行了测试。宋威龙［15］将复杂的行为决策问题分解为横、纵向决策两个子问题，针对纵向决策，建立了基于部分可观测马尔科夫过程（Partially Observable Markov Decision Process，POMDP）的决策模型，使智能车辆能考虑道路中其他车辆的驾驶意图，以便安全有效地行驶。PAN Yunpeng等［16］提出了一种端到端的模仿学习系统。该方法通过模拟配备先进传感器的模型预测控制器，训练了一种深度神经网络控制策略，将原始高维观测值映射到连续的转向和油门指令。但模仿学习方法需要大量的数据支持，存在模型训练成本高、泛化能力差等不足［17］。

强化学习是一种解决序贯决策问题的方法，可在与环境在线交互过程中习得优化策略。深度强化学习（Deep Reinforcement Learning，DRL）是强化学习与深度神经网络相结合的一种学习方法［18］，近年来已在诸多领域得到迅速发展，如游戏（Atari Games and Go）［19-20］、机器人控制［21］和股票交易［22-23］。众多学者也将该项技术应用到无人驾驶领域，如MIRCHEVSKA 等［24］使用深度Q 网络（Deep Q-Network，DQN）法进行智能车辆高速场景换道行为决策，在仿真环境下证明了该方法性能优于传统的基于规则法；MO Shuojie 等［25］在SUMO 环境下，利用双深度Q 网络（Double Deep Q-Network，DDQN）法对智能车辆的纵向速度和换道决策进行学习。但是，这些方法在策略学习过程中存在高偏差、学习效率低等缺点［26］。同时，安全性是所有自动驾驶系统开发的第一要义。而强化学习法的核心思想是通过与环境的交互探索以期获得最大的奖励，但不一定保证学习或执行阶段的安全，即智能体可能会执行不安全的操作。

因此，本文提出了一种基于深度强化学习与风险矫正的智能车辆决策模型。主要工作包括以下4项：

1）利用Highway-env［27］环境搭建高速交通环境，并采用强化学习中的近端策略优化算法（Proximal Policy Optimization，PPO）［28］构建智能车辆决策模型，输出离散动作空间下的自动驾驶决策指令；

2）在模型框架中引入自注意力安全机制，使目标车辆能过滤行驶中的复杂信息，重点关注与决策指令存在潜在风险的相关车辆；

3）为了进一步提高学习和执行阶段的安全性，本文增加了风险矫正模块，以降低在复杂交通环境下智能车辆执行危险行为的风险；

4）通过仿真验证本文决策模型的有效性。

1 整体框架

本文决策研究的整体框架，如图1 所示。决策模型将仿真环境中的车辆行驶信息作为输入，通过自注意力安全机制驱动的深度强化学习模块学习驾驶策略，并利用风险矫正模块矫正决策动作，从而指导智能车辆在高速驾驶环境中更安全地行驶。在模型的状态空间中须包含智能车辆驾驶过程中的运动学信息，即包括自身状态以及周围环境信息。本文选取了5 个特征量作为状态空间，并建立了由5种驾驶决策指令构成的动作空间，结合风险矫正模块，智能车辆可以根据指令执行不同的驾驶操作。最后，决策模型在奖励函数的引导下进行优化策略探索学习。

图1 决策研究整体框架

2 行为决策模型

2.1 深度强化学习

强化学习的基础模型为马尔科夫决策过程（Markov Decision Processes，MDP），它常被定义为一个五元组M=(S，A，P，R，γ)。其中，S 和A分别为状态和动作；P为状态转移概率函数P(s′|s，a)；R：S × A →R为当前状态-动作对下的奖励值；γ定义为折扣因子，用来衡量未来奖励在当前状态下的累计奖励中的权重。强化学习的最终目标是寻找一个最优策略π*，使智能体在其指引下所获累计奖励最大。

PPO 算法是一种基于演员-评论家（Actor-Critic，AC）框架的强化学习算法，它不仅具有适应性强，训练稳定等特点，并且相较于之前的置信域策略优化［29］（Trust Region Policy Optimization，TRPO）算法更易于实现。因此，本文采用PPO 算法作为智能车辆决策模块的决策算法。

为了使算法在采样数量减少的情况下也可以达到较好的训练效果，PPO算法引入了比例项r(θ)来描述新旧策略之间的差异，如式（1）所示。

在此基础上的目标函数为：

式中：π(a|s)为策略在状态s下选择动作a的概率；θ为策略参数；为t时刻的优势函数；ε为超参数，表示Clip 的截断范围。Clip 函数的引入限制了策略的更新幅度。此外，本文采用一种广义优势估计（Generalized Advantage Estimator，GAE）来估算优势函数，其计算式为：

式中：V(st)为值函数；rt为奖励函数。γ一般取0.99，而λ取0.95～1。PPO 算法提出的目标函数可以在多回合训练中以小数量样本迭代更新，解决了策略梯度中步长难以确认和更新差异过大的问题。

2.2 状态空间与动作空间

使用深度强化学习法解决车辆的换道决策问题，首先需要定义状态空间S。通常情况下，目标车辆的状态可以由其运动学信息，如位置、速度和航向角描述［30-32］。同时，为了运用自注意力安全机制表征不同个体间的交互关系，状态空间的描述还应包含周围车辆关于本车的相对运动状态。

因此，智能车辆所处的高速道路环境可以由一系列车辆状态向量s表示，如式（4）所示。

目标车辆和周围车辆的状态向量分别为s0和si，如式（5）～（6）所示。

本文的研究场景为同向三车道的高速公路，为覆盖较复杂的行驶情况，选取目标车辆相邻两车道距离最近的各3 辆车，以及目标车辆和前后距离最近的2 辆车，共计9 辆车构成状态空间。其次，相比普通公路其路面铺设质量较好，车速变化较为缓慢，所以假设车身和悬架系统都是刚性系统，并忽略车辆在垂直方向的运动，认为车辆是一个在二维平面上的运动物体，可使用自行车模型的状态量来描述车辆的当前状态。

因此，本文中N= 8，s1，2，…，8为目标车辆周围的8 辆车。状态空间如图2 所示，图中，S0由目标车辆的绝对运动信息构成；x0，y0为目标车辆在环境中的横纵坐标；，为横向速度和纵向速度；φ0为车身航向角；Δxi，Δyi为临近车辆与目标车辆之间的相对横纵距离；，为横纵速度差；φi为车身航向角。如果周围车辆不足8 辆，则将空缺si中的Δxi，Δyi设置为较大值，，设置为较小值，φi=φ0。

图2 状态空间表示

深度强化学习算法的动作空间A 由自动驾驶车辆的所有决策指令构成，如式（7）所示。

本文共定义了5 种驾驶行为，即车辆向左侧换道a0= LC_Left，右侧换道a1= LC_Right，直行加速a2= LK_Up，直行减速a3= LK_Down 和保持当前驾驶状态a4= LK。

2.3 自注意力安全机制

自注意力机制（Self-attention Mechanism）是一种将内部信息观察和外部信息观察相对齐，以增加局部特征表达准确度的注意力方法［33-34］。该项机制能自动学习数据间的特征，无需人工标注，降低了对外部信息的依赖。基于此特性，本节提出了一种自注意力安全机制，并将其结合到提出的行为决策模型中。自注意力安全机制可使目标车辆过滤无用信息，并重视与车辆行驶轨迹存在潜在碰撞风险的周围车辆，从而使模型可以作出避免碰撞并且保持安全行驶的行为决策。

本节自注意力安全机制采用的是基于transformer 框架［35］的multi-head 结构，与之不同的是本文只计算目标车辆对应分支的输出，如图3 所示。首先，将目标车辆和周围车辆的状态变量si∈R1×5输入相同的编码器（Encoder），得到对应的嵌入量ei∈R1×dx（Embedding），编码器通常为多个相同的规范化操作和共享权重的多层感知机（MLP）。之后所有车辆的嵌入量共同传入多头注意力层（Muti-Head Attention）。

图3 自注意力安全机制网络结构

图4 展示了目标车辆分支中一个注意力头（Ego-attention Head）的工作原理［36］：为了筛选当前环境中可能会对本车行驶造成影响的周围车辆，首先，目标车辆的嵌入量e0通过线性映射Lq∈Rdx×dk，生成一个查询单元（Query） Q =[q0]∈R1×dk。其次，将查询单元与一组键值单元（Key）K =[k0，…，kN]∈RN×dk进行比较。这些键值单元包含每辆车的描述性特征ki，是不同车辆的嵌入量ei用共享参数的线性映射Lk∈Rdx×dk计算得到。最后，为评估查询单元和键值之间的相似性，对Q 和K 进行点积运算q0kTi。将计算结果按1/dk进行缩放，其中dk是键值单元的维度，并应用softmax 函数归一化，获得对应表征单元（Value）V =[v0，…，vN]的权重。其中，v0∈R1×dv也使用共享线性映射Lv∈Rdk×dv进行计算。特别注意，K和V 的值是由当前驾驶环境中所有车辆计算而来，而查询单元Q 仅由目标车辆生成。综上所述，每个注意力头的注意力向量，如式（8）所示。

图4 目标车辆自注意力头的结构

式中：o为单个注意力头输出的注意力向量。

多个不同头的注意力向量堆叠形成注意力矩阵M∈Rn×dv，其中n为注意力头的数量。

所有注意力头的输出最终与一个多层感知机相连接，产生的张量可被视为输入信息添加到基于强化学习的行为决策模型中。通过引入自注意力安全机制，可使决策模型更关注决策目标车辆的行驶安全性，有效减少训练过程中的碰撞风险。

3 决策风险校正

通过改变优化指标和在执行阶段采用行为矫正是两种较常见的提高强化学习安全性能的方法［37］。仅修改模型的目标函数，会使智能体的行为策略变得更谨慎，但仍无法保证其不执行危险行为。而验证行为的安全性并对风险行为进行矫正，可以确保智能体在执行过程中的安全。因此，本文在PPO 算法的输出层后新增风险矫正模块，对可能产生的风险决策行为进行矫正，从而保证模型在探索和执行阶段的安全性。

深度强化学习算法的输出是自动驾驶车辆的决策指令。本文将PPO 算法产生的决策指令输入风险矫正模块中，判断当前决策是否存在与周围车辆发生碰撞的可能。某个高速行驶场景中的风险矫正案例，如图5 所示。图中，绿色矩形为目标车辆，蓝色矩形表示周围车辆。在图5a时刻，目标车辆做出向左车道换道的决策。通过行驶轨迹预测，对驾驶风险进行评估，判断目标车辆与前车有碰撞的风险，如图5b 所示。因此，矫正模块会对决策指令进行矫正：停止向左换道的行为并判断当前车道的行车状态。由于当前车道前车与目标车辆距离较远，所以目标车辆可选择加速行驶超过左侧车辆，如图5c所示。

图5 风险矫正场景

在运行过程中，目标车辆需实时与当前车道的前后车辆保持安全的行车距离。在本文中，理想的行车间距如式（9）～（10）所示［38］。

式中：vf为后车速度；δ为通信时延；δ·vf(t)为因通信延迟导致决策发生变化前，后车继续行驶的距离。δ取值大小应按照实际通信情况而定，较大的数值会使决策模型偏于保守，通行效率降低，反之则偏于激进，增加碰撞风险，本研究将其设为20 ms。Gmin为预先设定的最小安全距离，防止车辆低速行驶时（如前方道路拥堵vf≈0，Gsafe≈0）与前车间距过近。其取值大小可按驾驶者偏好设定，但不宜过小，仅在极限状况下生效，对决策模型性能的影响较小，本研究将其定义为3 m。dp和df则分别表示前、后车辆的制动能力。

同时，在产生换道决策时，也要兼顾换道目标道路上的行车安全，对车辆规划的驾驶轨迹进行安全性评估也是矫正模块中的重要环节。如果换道动作的未来轨迹与临近车辆的距离不在安全范围内，则应保持车道选择合适速度维持安全距离。

然而，如何对车辆未来的行驶轨迹进行有效预测是一个挑战。本文仍采用较传统的假设［39-40］，即车辆在纵向保持当前速度匀速直线运动，后续会尝试运用更加先进的轨迹预测技术。车辆的纵向轨迹可被定义为：

式中：xt，分别为当前采样时刻车辆的纵坐标和纵向速度。风险矫正模块通过对车辆驾驶决策的评估，对危险行为进行矫正，使车辆始终接收和执行更加安全的决策指令。

4 奖励函数

深度强化学习在奖励函数的引导下进行优化策略探索学习，如何设计奖励函数尤为关键。本文中的奖励函数R包括3 项，它们反映了效率、安全及最优目标车道。设计的目标是在避免与周围车辆发生碰撞的前提下，智能车辆可以在安全的车道上尽可能快地行驶。模型的奖励函数可分为瞬时奖励和动作奖励，瞬时奖励项定义为：

式中：rcollision∈{0，1}为智能车辆的碰撞情况；vmin，vmax分别为高速允许通行的最低速度和最高速度，本文的速度范围为[20，30] m/s。vsv为智能车辆的行驶速度。Flane为最优车道项，其函数定义为：

式中：lane_id为车道编号。在本文的环境中，车道编号自右及左逐次为1、2、3 车道。最优目标车道项的目的是规范智能车辆尽量不要占用最右侧车道，应保持中间车道或超车道行驶，而在同向三车道的场景下，车辆在中间车道遇险时相对拥有更多的换道选择，因此，在中间车道行驶的奖励值更高。ω1，ω2和ω3分别为3 项的系数，依据试验经验，取值为0.5、0.1 和1。同时，为避免过多的换道行为对交通环境造成不利影响，奖励函数会增加惩罚项RLC= -0.1。特别注意，虽然风险矫正模块已将危险决策进行纠正，但奖励函数上仍需要体现该错误决策所带来的危险，因此，设置该错误决策的惩罚项Ra= -0.1。当输入风险矫正模块的决策行为是安全无需矫正的，则该惩罚项为0。Ra需区别于瞬时奖励中惩罚发生碰撞后果的rcollision项。

综合上述影响驾驶决策行为的瞬时奖励和动作奖励项，最终的奖励函数为：

此外，MNIH 等［41］指出，奖励的规范化在DRL 中有加快收敛的作用。为方便与其他方法比较，本文将奖励函数的值规范化在[0，1]区间内。

5 试验与分析

5.1 试验环境

Highway-env 是一个轻量级的自动驾驶决策仿真环境。本文利用该环境建立一个三车道高速驾驶场景，其中包括采用自动决策系统的目标车辆（Subject Vehicle，SV）及其周围的行驶车辆。目标车辆中配置一个模拟激光雷达传感器，可以在目标车辆周边感知车辆驾驶信息，包括左右前方、正前方、正后方和左右后方的车辆。传感器的感知范围为150 m。仿真环境及车辆的主要参数信息见表1。

表1 仿真环境及车辆主要参数说明

在仿真环境中，行为决策模型输出的5 种驾驶行为由独立的底层连续控制器实现。纵向控制器为比例控制器，其车辆加速度控制量如式（15）所示。

式中：a为车辆加速度控制量；v为车辆速度；vr为目标速度；Kp为控制器比例增益。动作a2，a3，a4在执行层面的区别在于vr不同。横向控制器为结合了逆向运动学模型中非线性因素的比例-微分控制器，其位置控制计算和航向控制计算分别如式（16）～（17）所示。

式中：vlat，r为横向速度指令；Δlat为车辆与车道中线的横向距离；Δφr为应用横向速度指令的航向变化；φL为车道线的航向；φr为跟随车道线航向和位置的车辆目标航向；φ˙r为偏航角速度指令；δ为前轮转角控制量。动作a0，a1的区别在于Δlat和φL的不同。

为体现环境的随机性，周围车辆在场景中的原始位置为随机给定。同时，为了更好地模拟真实的高速环境，周围车辆的驾驶行为不会一成不变，而是根据实时的驾驶信息自主决策。本文采用智能行驶模型［42］（Intelligent Driver Model，IDM）和最小化变道引起的整体制动（Minimizing Overall Braking Induced by Lane Changes，MOBIL）模型［43］对周围车辆实行行为决策和控制。

5.2 试验分析

本文利用Highway-env 搭建了三车道动态高速驾驶仿真环境，将每次仿真的最大时长设置为40 s，并对每个模型进行20 万次训练。为了验证自注意力安全机制对决策安全性能的提升，本章节同时设计了3 种不同结构的深度强化学习决策模型（PPO_attention、PPO_CNN、PPO_mlp），模型的结构信息见表2。

表2 决策模型网络结构

同时，为了不影响智能体的探索过程，在训练过程中，没有将风险矫正模块连接至决策模型的输出端，该模块只在测试阶段与基于自注意力机制的PPO 决策算法相结合形成智能车辆安全决策模型（PPO_safe）。试验定义安全率为无碰撞仿真次数与仿真次数之比，3个模型在训练过程中每阶段（2 048次仿真）的安全率和累积奖励值，如图6所示。

图6 模型训练过程中的安全率和奖励值

由图6a 可知，自注意力安全机制驱动的PPO_attention 模型在训练初始就保持了较高的安全率，并在整个训练阶段始终保持在90%左右；而对比模型PPO_cnn和PPO_mlp的安全率虽然整体都呈上升趋势，但二者的安全率分别稳定在80%和60%左右，意味着二者在训练阶段常发生碰撞事故。图6b 是3 个决策模型的累积奖励值，其中PPO_cnn的奖励值最高，这是因为奖励函数的设计鼓励快速行驶，而该模型偏向于追求更快的行车速度，忽略行驶安全。虽然PPO_attention模型的奖励值略低于PPO_cnn 模型，但其安全通过测试的成功率明显高于PPO_cnn模型，同时奖励值也优于未结合自注意力安全机制的传统PPO_mlp模型。

为了保障智能车辆在执行阶段的安全，本文将完成训练的PPO_attention模型和风险矫正模块相结合，并构建智能车辆安全决策模型PPO_safe。分别对4种模型进行测试，每个仿真片断（epoch）时长为100 s，无碰撞事故发生的安全率，如图7 所示。PPO_safe模型在测试执行阶段保持了较高的安全率（99%），其安全性得到了验证。

图7 模型测试阶段的安全率

测试执行阶段中，不同模型在每个仿真周期内的平均速度和换道次数，如图8 所示。结合图7 可知，虽然PPO_cnn和PPO_mlp模型到达了较高的驾驶速度，换道频率也远大于其他对比模型，但二者的行驶安全率却低于60%，表明其在行驶过程中容易发生事故，并不能保证行为决策的安全。虽然PPO_safe 模型的换道频率要低于PPO_attention，但在测试中其整体速度要高于PPO_attention模型。结果表明本文提出的PPO_safe模型，在执行阶段保证安全性的前提下可以做出更有效的决策，即以较少的换道行为获得更快的驾驶速度，规避了一些无意义的换道操作，使智能车辆的行驶过程更为安全高效。

图8 模型测试阶段的平均速度和换道次数

在测试阶段，试验选择模仿学习中的BC 模型［44］、GAIL 模型［45］和强化学习中常用的离散决策模型DQN［46］作为对比模型。模仿学习中的专家数据集由PPO_safe 模型生成，共采集了300 组决策序列作为专家数据。此外，对比模型中还包含了基于规则的MOBIL+IDM 模型和自适应巡航模型（IDM with no lane change），其模型参数与Highwayenv 中的默认参数保持一致。表3 中记录了BC 模型、GAIL 模型、DQN 模型、MOBIL+IDM 模型、IDM 模型和已经完成训练的PPO_safe 模型、PPO_attention 模型的安全率、平均速度和平均换道次数。由表可知，基于模仿学习的BC模型和GAIL模型的安全率并不高，凸显了二者泛化能力较差的缺点；同时，这两种模型并没有出现换道决策动作，是因为专家数据集中的换道指令占比较小，而基于模仿学习的驾驶行为决策通常高度依赖于专家数据，导致模型没有成功习得换道策略。其中，结合风险矫正模块的PPO_safe模型的安全率最高，表明其在测试过程中发生碰撞的风险最小。同时，PPO_safe 模型的平均速度也在7 种模型中位列第2。相较于没有换道行为的IDM 模型，PPO_safe 模型利用有限的换道操作提升了驾驶效率；反观相对频繁换道的PPO_attention模型，其平均速度并没有提升。因此，在保障安全驾驶的要求下，有效的换道行为可以提升行驶速度，改善道路通行效率。

表3 各模型测试结果

最后对PPO_safe 模型的鲁棒性进行试验分析。在真实的系统运行过程中，智能车辆传感器采集的实时信息会受到噪声的影响。通过在状态空间中加入不同等级标准差的高斯白噪声（White Gaussian Noise）可模拟传感器数据可能产生的误差及噪声。分别在状态空间加入低等噪声（1%）、中等噪声（5%）和高等噪声（15%），对PPO_safe 模型进行100 个仿真片断的测试，并使用信噪比（Signal-to-Noise Ratio，SNR）衡量所有信号和噪声平均功率的对比。3 种等级噪声影响下的决策结果，见表4。

将表4 与表3 对比可知，在加入低等噪声干扰时，模型的安全率不会受到明显影响。而在中等噪声和高等噪声的干扰下，PPO_safe模型的安全率会下降，其换道次数也会降低，但决策系统整体上仍体现出较高的安全性能。

此外，周围车辆驾驶意图的不确定性也会对模型的决策产生影响。改变IDM模型的安全车头时距（默认值为1.5 s）和MOBIL 模型的换道效益阈值（默认值为0.2 m/s2）会形成不同的纵、横向驾驶策略。因此，向周围车辆决策模型中的参数引入随机扰动可以模拟驾驶意图的不确定性。分别为IDM和MOBIL 模型的参数加上标准差为其默认值15%、20%和25%的高斯噪声，并对PPO_safe 模型进行100 个仿真片断测试。在3 种等级不确定性影响下，PPO_safe模型的决策表现，见表5。

表5 引入驾驶意图不确定性后的模型测试结果

将表5 与表3 对比可知，周围车辆驾驶意图的不确定性并未使PPO_safe模型的安全率和平均速度显著下降，决策系统仍表现出较高的稳定性。

上述试验表明，本文提出的PPO_safe模型对传感器误差和噪声具有良好的鲁棒性，并且能较好地应对周围车辆驾驶意图的不确定性。

6 结论

本文设计了一种基于强化学习与风险矫正的智能车辆决策模型。在行为决策框架中引入了自注意力安全机制，提高了智能车辆在复杂高速场景下决策的安全性。此外，还设计了风险矫正模块，在执行阶段对决策动作进行风险评估与矫正，保证智能车辆的驾驶安全。该模型利用目标车辆及其周围车辆的实时驾驶信息，在每个采样点使用深度强化学习法生成车辆决策指令。仿真结果表明，该方法相比单纯的强化学习法在策略执行的安全性和学习速度上有显著提升，且相比模仿学习和传统基于规则的决策模型，基于强化学习和风险矫正的决策模型在复杂高速场景下具有更高的行车效率和低事故率。

虽然基于深度强化学习的决策模型能通过训练获得使未来回报最大化的最优策略，在每个采样时刻根据当前实时、确定的信息做出最优决策，但是道路中其他交通参与者的驾驶行为充满不确定性，仅从单一时刻的交通状态难以正确辨别其他车辆的意图，做出合理决策。未来的研究会尝试向深度强化学习模型中引入RNN 或LSTM 等序列数据处理网络，使决策模型能充分利用本车以及周围车辆的历史状态信息。