自动驾驶

定义

自动驾驶（Autonomous Driving）是指通过传感器感知、环境理解、行为预测和路径规划等技术，使车辆能够在无人干预或最小干预的情况下自主行驶的系统。现代自动驾驶系统深度依赖人工智能技术，包括计算机视觉、深度学习、强化学习和世界模型等。随着端到端学习和世界模型的发展，自动驾驶正从模块化架构向统一感知-预测-规划的端到端架构演进。

关键文献与发现

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs（2026-05-12）：语言模型能力的持续改进已经释放了它们作为自主代理驱动程序的广泛用途，例如在编码或计算机使用应用程序中。
Shields to Guarantee Probabilistic Safety in MDPs（2026-05-11）：屏蔽是一种重要的基于模型的技术，可确保自主代理的安全。
DataMaster: Towards Autonomous Data Engineering for Machine Learning（2026-05-11）：随着模型系列、训练方法和计算预算变得越来越标准化，机器学习系统的进一步收益越来越依赖于数据。
Algorithmic bottlenecks in evolution: Genetic code, symbolic language, and the Great Filter hypothesis（2026-05-06）：大过滤假说提出，能够进行星际旅行的技术社会的出现取决于少数异常困难且极不可能的步骤。
Chapter 2: Geometry of the Fitness Surface and Trajectory Dynamics of Replicator Systems（2026-05-06）：我们研究复制系统平均适应度表面的几何形状及其与进化轨迹动力学的关系。
ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation（2026-05-07）：对于艺术应用，视频生成需要对表演和摄影进行精细控制，即演员的动作和摄像机轨迹。
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction（2026-05-07）：大型语言模型（LLM）越来越多地用作交互式代理，但优化它们以进行长期决策仍然很困难，因为当前的方法很大程度上纯粹是反应性的，这削弱了扩展轨迹上的探索和信用分配。
Verifier-Backed Hard Problem Generation for Mathematical Reasoning（2026-05-07）：大型语言模型（LLM）展示了解决科学和数学问题的强大能力，但它们难以产生有效的、具有挑战性的和新颖的问题——这是推进 LLM 培训和实现自主科学研究的重要组成部分。
Laplacian Frequency Interaction Network for Rural Thematic Road Extraction（2026-05-04）：农村专题路网建设旨在从农机运动轨迹图像中提取拓扑道路结构。

HERMES++: 统一的驾驶世界模型

Zhou et al. (2026). HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation. arXiv:2604.28196v1

HERMES++ 针对自动驾驶领域的一个核心矛盾展开：现有驾驶世界模型主要关注未来场景生成，忽视了全面的 3D 场景理解；而 LLM 虽然具备强大的推理能力，却缺乏预测未来几何演化的能力。这造成了语义解释与物理模拟之间的显著鸿沟。

方法：HERMES++ 在单一框架内集成了 3D 场景理解与未来几何预测。核心设计包括：

BEV 表示：将多视图空间信息聚合为与 LLM 兼容的鸟瞰视角结构
LLM 增强的世界查询：在理解分支中利用 LLM 的推理能力进行知识转移
当前到未来链接：根据语义上下文调节几何演化过程，弥合时序差距
联合几何优化策略：将显式几何约束与隐式潜在正则化相结合，确保内部表示与几何感知先验的一致性

发现：HERMES++ 在未来点云预测和 3D 场景理解任务中均超越了各自领域的专业方法，验证了统一架构相比独立模型的协同效应。

自动驾驶的文献脉络

HERMES++ 的工作代表了自动驾驶从模块化向统一架构演进的最新进展：

早期研究（1980s–2010s）：CMU Navlab（1986/1995）、DARPA 挑战赛（2004）、Google/Waymo（2009）奠定了自动驾驶研究基础。
深度学习时代（2012–2020）：AlexNet（2012）推动计算机视觉应用；NVIDIA 端到端架构（2016）、PointNet（2017）推动 3D 点云处理；BEV 表示（2018）成为感知主流；Transformer 感知（2020）开始兴起。
端到端与世界模型（2021–2026）：BEVFormer（2021）推动 BEV 感知；UniAD（2022）统一感知、预测和规划；特斯拉纯视觉方案（2023）展示端到端可行性；HERMES++（2025）提出统一的驾驶世界模型，实现 3D 场景的理解与生成。

技术图景

感知系统

摄像头感知：基于图像的 2D 检测、车道线识别、交通标志识别
激光雷达感知：基于点云的 3D 目标检测和场景理解
多传感器融合：整合摄像头、激光雷达、毫米波雷达等多模态信息
BEV 表示：将多视角图像转换为鸟瞰视角的统一表示（HERMES++ 的核心组件）

预测与规划

轨迹预测：预测其他交通参与者的未来运动轨迹
意图预测：预测其他车辆和行人的行为意图
路径规划：计算从起点到终点的最优路径
行为规划：决定换道、超车、让行等高层行为

世界模型在驾驶中的应用

3D 场景理解：从传感器输入构建 3D 场景表示（HERMES++ 的统一框架）
场景生成：根据条件生成逼真的驾驶场景
可控生成：根据导航指令或驾驶条件生成对应场景
数据增强：利用世界模型生成训练数据以扩充数据集

研究前沿

基于 HERMES++ 及现有文献，以下问题仍待解决：

长尾场景：如何处理罕见但关键的边缘场景（如极端天气、异常事件）
安全验证：如何全面验证自动驾驶系统的安全性
3D 理解：从 2D 传感器输入准确理解 3D 场景仍有挑战（HERMES++ 通过 BEV+LLM 缓解但未完全解决）
实时性：复杂的感知和规划算法需要满足严格的实时性要求
泛化能力：系统在不同地域、天气和交通条件下的泛化能力
人机交互：自动驾驶车辆与其他交通参与者的交互和沟通
伦理问题：自动驾驶决策中的伦理困境（如不可避免的事故场景）