近日!
《自然通讯》
(Nature Communications)
发表了我校计算机与通信工程
学院三维图像认知与仿真实验室
马惠敏教授团队重要科研成果
《基于双过程理论和审议实践理论的自动驾驶系统》
(Autonomous Driving System based on Dual Process Theory and Deliberate Practice Theory)
Nature Communications, DOI: 10.1038/s41467-026-72030-6, (2026)

该成果为开放环境下自动驾驶系统的认知架构设计提供了新的思路,其核心在于将大语言模型 (LLM) 的场景理解、风险判断与轨迹规划纳入一个可迭代的认知决策过程,使系统能够在长尾场景中更可靠地应对复杂交通风险,并为安全敏感任务中的可解释智能决策提供了有益探索。
博彩评级网-靠谱的博彩平台
马惠敏教授、胡天宇副教授为论文共同通讯作者,张霄博士研究生为论文第一作者。清华大学为该论文的合作单位。
自动驾驶是交通领域演进的关键进步,但在开放、不受限的环境中,现有系统由于在长尾场景泛化能力不足及安全性保障方面的缺陷,仍难以大规模应用。目前的模块化和端到端方法主要关注视觉特征到控制信号的映射,缺乏人类在处理复杂任务时灵活调整逻辑推理深度的能力。这一难题的突破将有望推动自动驾驶系统从机械执行向类人认知跨越。

图1. CogniDrive 推理框架示意图:
结合双过程理论与审议实践理论的领域特定推理框架
马惠敏教授团队以推动自动驾驶系统在开放道路环境中的安全泛化为导向,针对现有系统在危险感知不足、少样本泛化能力有限和长尾场景决策困难等方面的关键瓶颈,创新提出了基于双过程理论(Dual-process Theory)与审议实践理论(Deliberate Practice Theory)的自动驾驶认知推理框架—— CogniDrive。该框架利用 LLM 的上下文理解与推理能力,将自动驾驶轨迹规划重构为具备认知推理特征的序列生成任务,并构建了 InstinctNav 与 ReflectPlan 协同的双过程决策机制。其中,InstinctNav 对应系统1,负责快速完成情境感知、行为决策与轨迹生成。ReflectPlan 则对应系统2,通过多模态反思推理闭环对初始规划进行评估、修正与重规划。通过融合语言模型的反思推理能力与视觉语言模型的场景语义理解能力,CogniDrive 将安全性、舒适性、能效表现以及潜在风险和异常目标转化为多模态反思信号,实现了直觉决策与深度推理的动态协同,有效提升了系统在翻倒货车、轮椅行人等长尾场景中的风险发现与决策修正能力。实验结果表明,CogniDrive 在 nuScenes 和 Waymo 开环测试中碰撞率分别实现 21.43% 和 13.33% 的相对降低,在 CARLA 闭环仿真中路线成功率达到 27.37%,并在安全性、舒适性和能效指标上取得领先表现。同时,仅需 5% 训练样本即可在轨迹预测精度上达到传统 SOTA 模型使用 100% 数据的水平,体现出优异的少样本泛化能力。团队进一步构建了涵盖安全、舒适与节能的综合评价体系,并利用贝塞尔曲线量化驾驶轨迹表现,为自动驾驶系统面向复杂开放环境的功能化综合评估提供了重要参考。

图2. 在常规和长尾场景下,InstinctNav和ReflectPlan 的推理流程
CogniDrive 作为面向开放环境自动驾驶决策的认知推理新框架,突破了现有自动驾驶系统在长尾场景理解、危险因素感知和少样本泛化方面的核心限制,为构建具备风险认知、反思修正和持续泛化能力的新一代智能驾驶系统提供了全新技术路线,将有力推动自动驾驶技术从封闭场景性能优化向真实开放道路应用发展。
原文链接:
//www.nature.com/articles/s41467-026-72030-6