摘要:
汽车纵向自动驾驶的决策任务是根据车辆当前运动状态与环境信息,决策出期望的动作指令。传统基于规则的决策由于既定的逻辑切换策略使得算法具有相对固化的因果机制,导致车辆对陌生环境的自适应能力下降。而当前热门的深度学习等“端到端”决策则大多依赖于概率推理,忽略了车辆当前状态与所执行动作的因果关系,容易产生虚假的相关性。针对决策过程的因果关联问题,建立了车辆跟驰行为的马尔可夫决策过程模型,其中利用真实驾驶员驾驶模拟器实验数据与驾驶风险原则确定了模型中的状态集和动作集,并根据车辆的行驶状态设计了相应的回报函数,进而基于增强Q学习算法对该模型进行求解,提出了以上决策过程的因果推理机制。最终,通过在随机工况下的仿真测试,验证了该方法的可行性与有效性。