端到端自动驾驶：从传感器输入到控制信号

FreeGuideOnline 最新 2026-06-20

端到端自动驾驶：从传感器输入到控制信号

端到端自动驾驶（End-to-End Autonomous Driving）是一种将原始传感器数据直接映射为车辆控制指令的范式。与传统模块化方案不同，它不再显式地构建感知、预测、规划、控制等独立子系统，而是通过一个统一的深度神经网络完成从“看见”到“行动”的全过程。本教程将从零开始，帮助你理解这一技术路线的核心概念、数据流、常用模型以及实践要点。

1. 为什么需要端到端驾驶？

传统自动驾驶系统由多个精心设计的模块串联而成：感知模块检测物体、预测模块推断未来轨迹、规划模块生成无碰路径、控制模块计算油门/方向盘转角。这种架构存在几个固有瓶颈：

信息损失：模块间通过抽象接口通信（如边界框、占用栅格），原始高维信号在压缩过程中可能丢失对驾驶决策至关重要的上下文信息。
错误累积：上游模块的微小误差会向下游放大，最终导致决策偏离。
优化目标割裂：每个模块独立优化自身的损失函数，难以保证整体驾驶行为的最优性。

端到端模型将所有组件联合优化，直接优化与驾驶质量相关的最终目标（如模仿人类驾驶行为），有机会学到更丰富、更鲁棒的内部表征。

2. 端到端驾驶的输入与输出

2.1 传感器输入

端到端系统通常融合多种传感器，以弥补单一模态的不足。常见输入组合包括：

前视摄像头图像：最基础的输入，提供丰富的纹理、颜色和道路语义信息。通常使用多帧连续图像以赋予网络对运动和时序的理解能力。
多视角环视图像：由前、后、左、右摄像头构成，消除盲区，是实现城市低速行驶与复杂泊车的关键。
激光雷达点云：提供精确的3D几何信息，对光照变化鲁棒。可表示为原始点集、体素网格或投影到2D的深度图。
毫米波雷达与超声波：提供相对速度、距离等测量，常用于增强安全冗余。
高精地图导航信息：以栅格化图片或向量化车道线形式输入，为网络提供目的地导向和交通规则先验。

常见的输入格式化方式：将不同传感器的数据通过投影统一到鸟瞰视角（BEV）空间，或者在特征层进行交叉注意力融合。

2.2 控制输出

网络的直接输出为车辆执行器信号，典型表示方式有两种：

连续控制量：方向盘转角、油门开度、制动压力。这种方式符合车辆动力学特点，但直接回归高维连续空间对网络训练要求较高。
离散+连续混合：将方向盘角度量化为多个分箱，输出每个分箱的概率，同时用回归分量微调；油门/制动则拆分为加速、减速的概率与幅度。
轨迹点输出：先预测未来若干时刻的期望轨迹点序列，再由底层控制器（如PID或模型预测控制）将轨迹转换为控制量。这种做法将规划与执行松耦合，便于进行约束检查与平滑处理。

一个安全的设计是网络输出的控制量都经过限幅和滤波，确保物理可行性。

3. 典型的端到端模型架构

现阶段主流方法将端到端驾驶形式化为“以视觉为中心的行为克隆”或“世界模型辅助的强化学习”两大流派。以下介绍两种代表性架构。

3.1 行为克隆模型：PilotNet 类

英伟达在 2016 年提出的 PilotNet 是最早的端到端公路驾驶模型之一。架构虽简，却奠定了后续很多工作的基础：

输入：单帧前视图像（YUV 颜色空间），尺寸归一化至 200×66。
卷积特征提取：5 层卷积，步幅逐渐增大，获得高维特征图。
全连接决策层：3 层全连接，最终输出单一浮点数——方向盘转角倒数（1/r）。
训练：收集人类驾驶员在中心城区、高速公路上的图像-转向数据对，使用均方误差损失进行回归训练。

后续工作对该基础架构进行了扩展：

多模态输入：在卷积层之后通过拼接或注意力机制加入速度、角速度等车辆状态向量。
时序建模：使用 3D 卷积或 LSTM 处理连续帧，捕捉动态物体运动和交通流变化。
多任务辅助：在主干网络上附加检测、语义分割等解码器，以显式监督帮助网络学到更具可解释性的特征，同时不影响端到端优化主目标。

3.2 鸟瞰图下的端到端规划：Lift, Splat, Shoot 范式

为了克服前视图像缺乏几何信息、难以进行多向推理的缺陷，“BEV 感知 + 规划” 成为近年主流。一个经典流程如下：

Lift（升维）：对每个环视图像的像素，网络预测其深度分布，将 2D 特征提升为 3D 视锥特征。
Splat（投影）：将所有相机的视锥特征根据相机外参投射到统一的、以车辆为中心的鸟瞰栅格中，利用求和池化聚合。
Shoot（射影查询）：规划网络在 BEV 空间预测多条候选轨迹，每条轨迹通过一个可微分采样器从 BEV 特征图中“射影”抽取对应位置的特征，最后用评分头选择最佳轨迹或直接回归控制量。

这类模型本质上实现了从图像空间到 BEV 空间的隐式映射，网络可以通过端到端训练自动决定不同区域、不同深度处该关注什么特征，极大降低了对人工特征设计的依赖。

4. 数据收集与训练策略

4.1 数据集构建

高质量驾驶数据是端到端系统的核心瓶颈。常用数据来源有：

人类驾驶记录：使用量产车的辅助驾驶感知硬件（摄像头、雷达）记录专家驾驶员的转向、刹车信号，形成“状态-动作”对。成本低，但行为风格多样，需要清洗。
仿真器采集：在 CARLA、CarSim、Metadrive 等仿真环境中，由规则控制器或人类操控生成无限数据，适合探索极端场景和强化学习训练。
自标注语料：基于传统感知系统先离线生成 BEV 语义图、占据栅格，然后用网络拟合这些中间表征，再微调到控制任务。

数据集应着重覆盖：各类路口、环岛、匝道、隧道、恶劣天气、行人横穿等长尾场景。

4.2 模仿学习的局限性及改进

直接行为克隆面临分布偏移问题：当车辆偏离专家轨迹时，网络会进入训练数据未覆盖的状态，导致错误累计并引发失控。缓解措施包括：

DAGGER（数据集聚合）：在训练初期策略引导下收集人类校正数据，迭代增强抗偏移能力。
噪声注入：训练时对专家动作加入高斯噪声，强制网络学会纠正偏差。
多模式预测：输出动作时预测候选集（如向左、向右、直行），并引入可训练的评分头，使网络在不确定场景下能保持决策多样性。
引入辅助损失：如隐含地要求表征能预测未来点云或占用分布，这相当于一种无监督的预训练，可提升泛化性。

4.3 强化学习微调

将模仿学习得到的策略作为初始策略，在仿真器中通过强化学习（如 PPO、SAC）继续优化，奖励函数可定义为：

通行效率（速度奖励）
安全性（碰撞惩罚、车道偏离惩罚）
舒适性（急动度惩罚、横向加速度惩罚）
交通规则遵守（闯红灯惩罚、停止线停车奖励）

强化学习的加入能显式地对长期场景演化进行优化，超越单步模仿的最优性。

5. 可解释性与安全性验证

端到端黑箱属性是其部署的最大阻力。增强可信度的技术包括：

注意力可视化：提取网络高相关性区域，验证是否聚焦于车道线、障碍物、交通标志等合理目标。
可解释中间表示：如 BEV 语义分割头的输出可直接投影到真实世界进行人工对照。
形式化验证：使用 SMT 求解器或区间传播分析网络在输入微小扰动下的输出边界，确保决策的稳定性。
特权学习：在教师-学生框架中，教师拥有全状态信息，学生只用受限感知输入，通过知识蒸馏提升学生策略的内在合理性。

同时，必须结合基于规则的独立安全监控层（例如自动紧急制动、限速保护）作为兜底，实现“网络提议 + 规则校验”的混合执行。

6. 实战：用 CARLA 搭建一个简易端到端系统

以下是一个最小化验证流程，帮助巩固理解。

环境准备
安装 CARLA 0.9.15，Python API，PyTorch。启动 CARLA 服务器并加载 Town01 地图。
专家数据采集
编写 autopilot 脚本，车辆由 CARLA 内置的基于规则的控制逻辑驾驶。每 0.1 秒保存：
- 中央摄像头图像（RGB，800×600）
- 方向盘转向（steer）
- 油门（throttle）
- 刹车（brake）
数据预处理
- 裁剪图像上下缺少信息的部分，并缩放到 200×66。
- 将 steer 除以最大转角映射到 [-1, 1]。
- 构建时序样本：当前帧 + 前 2 帧堆叠为通道维度，形成 9 通道输入。
模型定义
参考 PilotNet 结构，但输入通道改为 9，并在卷积后拼接当前速度标量。最后一层输出 3 个头：steer（tanh 激活）、throttle（sigmoid）、brake（sigmoid）。损失为三者的加权 MSE。
训练和闭环测试
在采集的数据集上训练 30 个 epoch，然后将其植入 CARLA 的车辆控制循环。观察车辆能否维持车道 10 秒以上。初始失败是常态，需要分析：
- 是否仅学会了预测直行？
- 训练数据中转弯样本比例是否足够？
- 是否需要加入更多传感器数据（如激光雷达）。
迭代改进
逐步引入鸟瞰图投影、多任务学习以及 DAGGER 数据增强，观察性能提升。

7. 挑战与未来方向

安全泛化到开放长尾场景：当前模型在已知场景拟合出色，但面对全新道路结构、异形障碍物时表现急剧下降。需要大规模多源数据融合与海量仿真。
在线学习与持续适应：允许车辆在执行过程中，根据安全反馈对模型进行微调，以适应天气、光照和特定驾驶习惯。
伦理决策与交互意图：将社会规范、法定路权、道德考量嵌入奖励函数或约束中，使模型行为不仅安全，还能被人类理解和接受。
模型压缩与车规级部署：将大型 Transformer 架构轻量化，满足车载芯片的实时性、功耗和功能安全等级要求。

端到端自动驾驶正从学术研究加速迈向工业落地。理解其核心思想、数据闭环与评估机制，是进入这一领域必备的基础。希望本教程能为你打开一扇门，让你在“从传感器到方向盘”的道路上持续探索。