智能汽车: 自动驾驶算法篇-大模型助力, 自动驾驶有望迎来奇点

报告出品方：开源证券

以下为报告原文节选

------

1、自动驾驶——数据驱动下的算法迭代

1.1、自动驾驶算法是感知、预测、规划、控制的结合体

自动驾驶算法反应了工程师们根据人的思维模式，对自动驾驶所需处理过程的思考。通常包含感知、预测、规划模块，同时辅助一些地图、定位等模块，实现自动驾驶功能的落地。

1.1.1、感知：感知外部世界

感知模块主要解决四类任务：（1）检测：找出物体在环境中的位置；（2）分类：明确对象是什么，如分辨不同类别交通标志；（3）跟踪：随着时间的推移观察移动物体，通常采用跨帧追踪对象（将不同帧中检测到的对象进行匹配）、BEV 加入时序信息等实现；（4）语义分割：将图像中的每个像素与语义类别匹配，如道路、天空、汽车等，用于尽可能详细了解环境。

以 Apollo 感知算法框架为例，其算法包含预处理、神经网络模型、后处理等模块。首先图像预处理主要是对图像进行调整、畸变校正等，使之更符合机器学习的要求。其次分别对红绿灯、车道线、障碍物等特征进行检测，其中红绿灯通过检测边框、颜色等进行进一步的识别；障碍物则经过 2D 到 3D 的转换，得出真实的信息坐标，再融合车道线检测信息、外部传感器信息等得出真实世界的障碍物信息。该部分通常采用全卷积神经网络或者 YOLO 等算法实现。

1.1.2、预测：理解外部环境和当前状态

预测模块实际上是算法对外部环境和自车状态的理解。预测模块首先收集感知模块输入的车道线、障碍物、红绿灯、地图、定位等信息对主车的状况进行判断。

其次场景感知模块对外部障碍物的优先级、路权等外部环境对主车的影响进行感知。

评估器则会根据场景信息和障碍物信息判断出障碍物的轨迹或意图。预测器则根据短期的预测轨迹和意图判断障碍物等外部环境相对长期的轨迹。这将为未来汽车的规划提供重要的参考。算法层面通常以 RNN 为主。

1.1.3、规划：思考如何行动

规划指找到合理路径来到达目的地。规划通常分为全局路径规划、行为规划与运动规划几个部分。其中，全局路径规划指智能汽车依靠地图规划出理想状态下到达目的地的路径。行为规划则是主车在实际行驶的过程中，面临实时的交通环境，做出的各类驾驶行为，如跟车、换道、避让等。运动规划生成与驾驶行为对应的驾驶轨迹，包含路径规划和速度规划。最后再采用一些优化方式让变道加速等行为变得平顺以满足舒适性要求。算法层面，通常采用基于规则的规划决策算法，前沿的玩家也开始引入机器学习等方式，以提升决策效能。

1.2、数据：算法的养料，现实与虚拟的交织

算法、算力和数据是人工智能的三大要素，数据在模型训练中拥有不可忽视的影响。一方面，Transformer 等大模型在大体量数据集训练下才能表现更佳的特性带来其对训练端数据的要求激增，特斯拉在 2022 年 AI DAY 上曾表示，训练其占用网络采用了 14 亿帧图像数据。另一方面，由于自动驾驶面临的场景纷繁复杂，诸多长尾问题需要在现实或虚拟场景中获取。因此数据闭环在自动驾驶领域弥足重要。毫末智行将数据作为“自动驾驶能力函数”的自变量，认为是决定能力发展的关键，Momenta 也曾表示，L4 要实现规模化，至少要做到人类司机的安全水平，最好比人类司机水平高一个数量级，因此需要至少千亿公里的测试，解决百万长尾问题。

数据挖掘和针对性的训练能显著减少 Corner Case。以特斯拉为例，在面临一个

看起来像临时停车但实际上是永久停车的场景时，最初算法会将其判定为临时停车。

当特斯拉通过数据挖掘在训练集中增加了 1.4 万个类似场景的视频并训练模型后，神

经网络便理解了这辆车里面没有司机，将其判别为永久停车。

2、大模型横空出世，自动驾驶奇点来临

早期自动驾驶方案采用激光雷达+高精度地图为主。早期市场以传统计算机视觉和专家系统为基础构建辅助驾驶功能，随后人工智能的蓬勃发展让深度学习在自动驾驶领域被广泛使用，以 waymo 为代表的自动驾驶先驱玩家开创了激光雷达+高精度地图的感知范式，Cruise、百度等巨头纷纷效仿。该方案中，对道路结构、车道线等静态环境元素的感知强依赖高精度地图，而实时的动静态障碍物信息则强依赖激光雷达。高精地图成为一项“基础设施”，将很多在线难以解决的问题提前存储到地图数据中，行车时作为一项重要的感知数据来源，减轻传感器和控制器的压力。由于该方案只能在有图地区行驶，也被一些人形象的称为“有轨电车”。

高昂的单车成本和高精度地图成为自动驾驶大规模推广瓶颈。Robotaxi 成本高昂（Yole 统计早期 Waymo 为代表的的自动驾驶汽车改装成本约为 20 万美元），高精度地图采集制作以及合规要求繁杂（量产落地过程中，高精度地图面临：采集成本高；人工修图制图费时费力；地图鲜度不足；国内法规严格等困难），带来该方案的泛化性较差。经过数十年的发展，Robotaxi 的使用范围仍被限制在特定区域，使用对象也仅局限在商用车领域。市场亟待出现一种单车性能强大、成本低廉的自动驾驶解决方案。

2.1、 BEV+Transformer 横空出世，大模型推动自动驾驶迈向普及

2021 年特斯拉推出 BEV+transformer、重感知轻地图的自动驾驶解决方案，开启了自动驾驶行业新的篇章。

2.1.1、 BEV 感知助力成为感知外部世界标准范式

BEV 全称为 Bird’s Eye-View（鸟瞰图），即通过神经网络将各个摄像头和传感器获取的信息进行融合，生成基于俯视的“上帝视角”的鸟瞰图，同时加入时序信息，动态的对周边环境进行感知输出，便于后续预测规划模块使用。正如人类一样，驾驶行为需要将各处观察到的信息综合到统一的空间中，来判别什么地方是可以行驶的区域。究其原因，驾驶行为是在 3D 空间中的行为，而鸟瞰图则是将 2D 的透视空间图像转换为 3D 空间，不存在距离尺度问题和遮挡问题，使得算法可以直观的判断车辆在空间中的位置以及与其他障碍物之间的关系。

2.1.2、 Transformer 大模型为构建 BEV 空间提供最优解

2021 年特斯拉在 AI Day 上第一次将 BEV+transformer 的算法形式引入到自动驾驶，开启了自动驾驶的崭新时代。首先 BEV 空间的构建，实际上就是寻找一种恰当的方式，将多个 2D 的图像和传感器信息综合转化成为一个 3D 的向量空间。经过多次尝试，特斯拉最终引入了 Transformer 大模型来实现这一转换。

Transformer 大模型是近年人工智能领域的热门算法，其主要通过注意力机制来分析关注元素之间的关系进而理解外部世界。早年被应用于自然语言处理领域，后续延展到计算机视觉等多个方向。算法的优势显著：

➢ 具有更好的全局信息感知能力：Transformer 模型更关注图像特征之间的关系，因此会跟多关注整个图像的信息，卷积神经网络更多关注固定大小区域的局部信息，因此 Transformer 在面对图像中长程依赖性的问题拥有更好的表现。

➢ 天花板高企适用于大规模数据训练场景：在图像识别能力方面，Transformer拥有更高的上限，随着训练数据量的增长，传统 CNN 模型识别能力呈现饱和态势，而 Transformer 则在数据量越大的情况下拥有更好的表现。而自动驾驶洽洽为面向海量的数据场景，要求有足够好的精度的场景。

➢ 拥有多模态感知能力：Transformer 可实现多模态数据的处理，应对图像分类、目标检测、图像分割功能，并实现对 3D 点云、图像等数据的融合处理。

➢ 灵活、较好的泛化性能：Transformer 可适用于不同大小的输入图像，同时外部环境包含扰动的情况下仍能保持较好的检测性能。

但 CNN 网络在提取底层特征和视觉结构方面有比较大的优势，而在高层级的视觉语义理解方面，需要判别这些特征和结构之间的如何关联而形成一个整体的物体，采用 Transformer 更加自然和有效。同时 CNN 也拥有更好的效率，可以采用更低的算力实现效果。因此业界通常会将 CNN 和 Transformer 结合来进行物体识别。

2.1.3、特斯拉引领打开自动驾驶天花板

特斯拉的自动驾驶算法结构中，首先将摄像头信息无损采集，送入卷积神经网络 Regnet 来提取不同尺度的图像特征，接着使用 BiFPN 进行特征融合，然后将这些特征送入 Transformer 模块，利用 Transformer 中的多头注意力机制来实现 2D 图像特征到三维向量空间的转换和多摄像头特征系信息的融合，之后接入不同的“头”如交通标志检测、障碍物检测等，来实现不同任务的处落地，形成一套优雅的，可完美实现数据驱动的感知算法。由于不同的“头”之间采用了共享的特征提取网络，因此被特斯拉起名为“九头蛇”算法架构。

特斯拉的 BEV+Transformer 算法中两个环节尤为关键：

（1）2D 图像到 3D 空间的转换以及图像融合：

在 2D 图像到 3D 向量空间转换的环节，特斯拉在行业内首次引入了 Transformer。

具体而言，先构建一个想要输出的三维的栅格空间，并对其进行位置编码成为查询向量（Query），然后将每个图像和自己的特征输出相应的查询键码（Key）和值（Value），最终输入到注意力机制中输出想要的结果。类似于每个图像中的特征都广播自己是什么物体的一部分，而每个输出空间的位置像素像拼图一样，寻找对应的特征，最终构建出希望输出的向量空间。（Query、Key、Value 分别为 Transformer 算法中的参数，通过将外部世界转化为参数而实现信息处理和任务输出）

（2）加入时序信息，让算法拥有“记忆”：

为了让自动驾驶算法拥有类似一段时间内“记忆”的能力，特斯拉在感知网络架构中加入了时空序列特征层。通过引入惯性导航传感器获取的包含速度和加速度等自车运动的信息，算法模型可获取时间和空间的记忆能力。具体而言，特斯拉给算法加入特征队列模块（Feature Queue），他会缓存一些特征值（包含历史帧的 BEV特征、惯导传感器信息等），便于了解车辆行动，这个序列包含时间和空间记忆。然后引入视频模块（Video Module）使用空间循环神经网络（Spatial RNN）/transformer等算法将前述缓存的特征进行融合，关联前后时刻信息，使得模型具有记忆能力，让自动驾驶汽车将同时能够记住上一段时间和上一段位置的检测信息。

2.1.4、 BEV+Transformer 大模型提供远强于传统自动驾驶算法的感知能力

（1）改善 2D-3D 空间转换过程中深度预测难点，感知性能大幅提升

引入 BEV+Transformer 后，模型对于 2D 空间向 3D 空间转换的精度大幅提高。

构建 BEV 模型一大重要任务是实现 2D 图片到 3D 空间的转换，通常业内有四大类方式实现 2D-3D 视角转换：早期通常以基于相机内外参数（焦距、光芯、俯仰角、偏航角和地面高度）的几何变换的 IPM（逆透视变换）实现，由于该方式基于地面纯平、俯仰角一定的假设，约束条件实现难度高；后续英伟达推出 BEV 行业的开山之作LSS算法，但由于其计算量庞大以及精度仍然有限，难以支撑BEV的真正落地；其后学界业界探索了众多方案，包含基于神经网络，通过监督学习数据驱动实现 BEV空间构建等方式，但深度估计的精度均不尽人意。2021 年，特斯拉首次将 Transformer应用于 BEV 空间的构建，在多摄像头视角下，相比传统感知方式，大幅提升了感知精度，该方案推出后也迅速被业界广泛追捧。