• 注册 / 登录
  • 切换到窄版
  • 查看: 5|回复: 0

    视觉正成为自动驾驶技术主流

    [复制链接]

    679

    主题

    693

    帖子

    7826

    积分

    版主

    Rank: 7Rank: 7Rank: 7

    积分
    7826
    发表于 4 天前 | 显示全部楼层 |阅读模式

    路线栈欢迎您!

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    本帖最后由 一路上 于 2025-12-7 08:12 编辑

    一、前言

    现有自动驾驶汽车正处于一个 “L2级大规模普及” 与 “L4级在特定场景商业化试点” 并行的阶段。对于普通消费者而言,能够接触到的绝大多数是需要驾驶员时刻监控的L2级辅助驾驶系统。全球普遍采用国际汽车工程师学会(SAE)制定的标准,将自动驾驶分为L0-L5六个等级:

    1.png

    0 级(无自动驾驶)
    在当今的道路上行驶的大多数汽车都是 0 级:手动控制。由人来完成"动态驾驶任务",尽管可能有相应的系统来辅助驾驶员,例如紧急制动系统,但从技术方面来讲,该辅助系统并未主动"驱动"车辆,所以算不上自动化驾驶。

    1 级(驾驶员辅助)
    这是自动化的最低级别。车辆具有单独的自动化驾驶员辅助系统,例如转向或加速(巡航控制)。自适应巡航控制系统可以让车辆与前车保持安全距离,驾驶员负责监控驾驶的其他方面(例如转向和制动),因此符合 1 级标准。

    2 级(部分自动驾驶)
    这指的是高级驾驶员辅助系统或 ADAS。车辆能够控制转向以及加速或减速。因为有驾驶员坐在汽车座位上,并且可以随时控制汽车,所以这一阶段的自动驾驶还算不上无人驾驶。

    3 级(受条件制约的自动驾驶)
    从技术角度来看,从 2 级到 3 级实现了重大飞跃,具有“环境检测”能力,可以自己根据信息做出决定,例如加速经过缓慢行驶的车辆。但是这个级别仍然需要人类操控。驾驶员必须保持警觉,并且在系统无法执行任务时进行操控。

    4 级(高度自动驾驶)
    3 级和 4 级自动化之间的关键区别在于,如果发生意外或系统失效,4 级自动驾驶汽车可以进行干预。从这个意义上来说,这些汽车在大多数情况下不需要人为干预,但是驾驶员仍然可以选择手动超控。

    5 级(完全自动驾驶)
    5 级自动驾驶汽车不需要人为关注,从而免除了“动态驾驶任务”。5 级自动驾驶汽车甚至都不会有方向盘或加速/制动踏板。他们将不受地理围栏限制,能够去任何地方并完成任何有经验的人类驾驶员可以完成的操控。

    二、感知层,传感器技术分析

    自动驾驶主要依赖三大类传感器:摄像头、雷达 和 激光雷达。

    SZSCA.png

    1. 摄像头 ;是 “大脑皮层”,负责识别和理解那是什么”

    工作原理:被动接收环境反射的可见光,形成2D图像。

    核心优势:全要素捕获车道线、交通标志、红绿灯、车辆尾灯、行人姿态、路标文字、交通警察手势、施工区域锥桶、天空云层状态等无限种类的目标。

    主要劣势:无法直接测距,需要依赖算法(立体视觉、深度学习)估算距离,精度和可靠性有限。

    2. 毫米波雷达 是 “尺子和骨架”,负责精确测绘东西在哪里、什么形状?

    工作原理:主动发射无线电波(毫米波),通过接收回波计算物体的距离和速度。

    核心优势:直接测距、测速是其独一无二的优势。受雨、雪、雾、尘等恶劣天气影响小,穿透力强。

    主要劣势:分辨率低,难以识别物体具体轮廓和类型(无法区分人是狗);容易忽略静止的障碍物(如路边的护栏、静止的车辆)。

    3. 激光雷达 是 “可靠的哨兵”,负责探测存在有东西在动和速度多快?

    工作原理:主动发射激光束,通过测量激光返回的时间(飞行时间法)生成精确的3D环境地图。

    核心优势:精确的3D测距,提供厘米级精度的距离和物体轮廓信息,直接创建周围环境的3D“骨架”。

    主要劣势:受恶劣天气影响,大雨、大雪、浓雾会散射激光束,导致性能下降。缺乏语义信息,点云可以知道有个物体,但很难直接分辨是“人”还是“树”。

    4.其他辅助传感器

    超声波雷达:是近距离触手;短距离测距(通常<5米),自动泊车、低速障碍物检测。

    GPS:是空间定位;提供全局绝对位置,但精度低(米级),有信号遮挡问题。

    IMU:是方向感;测量车辆的三轴角速度和加速度,提供高频的车辆姿态和位移变化。

    组合:通过组合导航技术,结合GPS的长期绝对精度和IMU的短期高频精度,实现稳定、连续的车辆定位。

    特性摄像头 (Camera)毫米波雷达 (Radar)激光雷达 (Lidar)
    工作原理被动接收可见光,形成2D图像。主动发射毫米波频段的无线电波,通过回波测距和测速(多普勒效应)。主动发射激光束,通过飞行时间原理进行高精度测距,生成3D点云。
    输出数据2D像素矩阵(颜色、亮度)。目标列表(距离、速度、方位角、目标强度)。3D点云(海量的X, Y, Z坐标和反射强度)。
    探测精度角度分辨率高,深度精度低。距离和速度精度极高,角度分辨率较低。距离和角度精度均极高,可生成精确3D轮廓。
    优势1. 成本低1. 全天候工作(穿透雨、雾、灰尘能力强)1. 超高精度3D建模
    2. 信息丰富(颜色、纹理、图标、文字)2. 直接测距测速2. 轮廓清晰,静态环境感知极佳
    3. 基于深度学习,识别和分类物体表现出色3. 成本适中3. 角度分辨率高
    劣势1. 无直接深度信息1. 分辨率低,难以识别物体类型1. 成本高
    2. 受光照、天气影响极大2. 对静止物体鉴别能力弱(传统雷达)2. 受极端天气影响(大雨、浓雾)
    3. 计算量大3. 无法感知颜色和纹理3. 无法感知颜色和纹理
       
    反应时间快:帧率通常为30-60 FPS,每16-33毫秒采集一帧。快:可达50-100Hz,每10-20ms就输出一帧数据。慢:旋转式或半固态帧率通常为10-20Hz,每50-100ms生成一帧点云。

    5.视觉技术在识别方面具有绝对优势,是理解世界的“大脑”。

    当前最前沿的 BEV(鸟瞰图)感知 和 Occupancy Network(占用网络) ,其灵感和发展都源于计算机视觉。视觉大模型驱动的 Occupancy Network(占用网络) 和 NeRF 等技术,可以直接输出密集的3D几何和语义,不仅知道“那里有辆车”,还能知道“它占据了怎样的连续空间,表面是何材质”,这对于安全规划至关重要。

    其最终目标是构建一个 “视觉基础模型”,一个像人类视觉皮层一样,能够作为基础,快速适应和理解任何新视觉任务的智能系统。这对于实现真正安全、鲁棒的自动驾驶和具身智能,是不可或缺的技术跃迁。

    三、决策层,实时地图与驾驶策略

    摄像头 → 三维场景重建(实时地图) → 驾驶策略:过摄像头实时感知并重建的、富含语义信息的周围环境模型;也可以理解为车辆的 “即时场景理解”。有了这个实时构建的、三维的、语义化的环境模型,决策系统就可以在此基础上制定驾驶策略。

    QL16HJY.png

    1.实时地图

    把自动驾驶系统设计为以高频、低延迟的短期相对定位与局部地图驱动控制与避障,同时用低频的全局校准与闭环修正保证长期一致性和合规性;并通过不确定性建模和独立且保守的安全降级策略保障最终安全。

    1.1.高频局部层 = 快思考:直觉、反射,处理即时危险,保证生存。

    局部精准的相对定位:视觉SLAM(同步定位与地图构建)技术通过摄像头和其他传感器(如惯性测量单元IMU)追踪环境中的特征点来实时构建车周围环境的三维地图,解决我相对于周围近处环境的精确位置和姿态问题。

    • 核心价值:提供连续、高频(毫秒级)、低延迟的车辆自身运动估计,是车辆实时控制与避障的基础。
    • 技术核心:视觉惯性里程计。
    • 摄像头:提供精确的位移测量,但依赖纹理,在快速运动时可能失效。
    • IMU:提供高频运动预测,弥补摄像头帧间间隔,但误差会随时间累积(漂移)。
    • 工作原理:融合摄像头观察到的环境特征点位移与IMU测量的加速度/角速度,互补工作,实时估算车辆在局部坐标系下的6自由度位姿(位置与姿态)。
    • 输出本质:一个局部的、高精度的稀疏点云地图,以及车辆在这个地图中的实时位姿。其坐标系是相对的,原点通常是启动位置。

    1.2.低频全局层 = 慢思考:理性、规划,确保方向正确和合规,保证使命。

    全局一致的绝对定位:同时车辆通过视觉感知到当前的车道线、路牌、路缘等元素与云端下发的众包语义地图进行匹配,从而确定自己在道路上的精确位置(在哪条车道,离路口多远等),而不是相对于一个稀疏点云地图的定位。

    • 核心价值:消除局部定位的累积漂移,提供车辆在全局道路网络中的车道级绝对位置。
    • 技术核心:基于先验语义地图的匹配与优化。

    工作原理:

    • 地图查询:从云端下载当前区域的高精语义地图(包含车道线、交通标志等元素的矢量数据库)。
    • 局部感知:用车载模型实时识别车道线、路牌等语义元素。
    • 匹配与优化:将实时感知的语义元素与地图中的先验元素进行匹配,通过优化算法求解出车辆在全局坐标系下的最优位姿。
    • 输出本质:将车辆从“相对局部地图的位置”校准到“绝对世界中的精确车道位置”。

    1.3.安全冗余层 = 元认知:自知之明,知道自己的局限,并为失败准备好退路,保证韧性。

    • 工程价值:通过独立的后备感知与规控链路,在前两层出现不确定或失效时,执行最低风险策略,确保基本安全。
    • 设计思想:承认前两层(VIO、地图匹配)存在局限(如环境剧变、地图未覆盖),必须建立不依赖于它们的安全通道。
    • 实现方式:用毫米波、激光雷达和一套保守的规控算法构成。不依赖精确的局部地图或复杂的全局匹配,核心逻辑是持续检测碰撞风险,并在主系统失效时触发诸如“减速、停车、靠边”等确定性安全动作。

    2.驾驶策略

    自动驾驶的决策,是在一个由感知系统实时构建的、连续且动态变化的三维时空“棋盘”上,进行的一场复杂多智能体博弈。其目标并非寻找唯一“正确”路径,而是在庞大的可能性空间中,求解一个能最优化综合收益(安全、效率、舒适)的序列。

    F9FY.png

    2.1.核心类比:棋道与驾驶之道

    棋盘:环境占据栅格地图
    • 传统围棋棋盘是静态的二维网格。自动驾驶的“棋盘”是动态的、三维的时空环境。
    • 每一个栅格不仅包含空间信息(是否有物体占据),还隐含了时间维度(物体如何运动)。

    对手与伙伴:多智能体博弈
    • 棋手面对一个对手。自动驾驶车辆则是在与所有交通参与者(车辆、行人、骑行者)进行实时博弈。每个参与者都有自己的意图和策略,系统必须预测并应对。

    落子:轨迹规划
    • 围棋的“落子”是选择一点。自动驾驶的“落子”是在时空棋盘上,选择一条从当前位置通向未来的连续轨迹(路径+速度 profile)。

    棋理:规则与“势”的判断
    • 围棋棋理指导棋手权衡“势”(未来潜力)与“地”(现实利益)。驾驶的“棋理”则被精确量化为成本函数,用以权衡安全、效率、舒适与合规。

    2.2.核心策略:量化“势”与“地”——成本函数驱动

    安全之“势”(厚势与活形):
    • 碰撞成本:离障碍物越近,成本呈指数级升高。
    • 风险区成本:处于其他车辆盲区、紧邻大型车辆、行人密集区,成本增高。
    • 不确定性成本:对感知模糊或预测不确定的物体,保留更大安全边际,成本增加。

    效率之“地”(实利与行棋节奏):
    • 进度成本:偏离期望速度(如道路限速)、距离全局目标车道或路径越远,成本越高。
    • 通行权成本:在拥有路权时(如绿灯直行)过于迟疑,会产生效率成本。

    舒适之“形”(棋形舒展):
    • 动力学成本:加速度、加加速度(冲击度)过大,导致乘坐不适,成本增高。
    • 转向成本:曲率、曲率变化率过大,成本增高。
    • 规则之“筋”(棋之根本):硬约束成本:违反交通规则(如压越实线、闯红灯、逆行)的成本被设为无穷大,即绝对禁止。

    2.3.博弈求解:像九段棋手一样思考

    优秀的自动驾驶系统,正如一位沉稳的围棋九段棋手:
    • 通盘考虑,不争一时:不会为超越一辆慢车而冒险挤入危险间隙,而是可能选择跟随,等待更安全的超车时机,着眼于全程的顺畅与安全。
    • 保持“厚势”,预留“余味”:始终选择能最大化安全边际、保持灵活性的轨迹。例如,在车道中略微偏移以远离路旁静止车辆,为自己留下应对突发状况的空间。
    • 审时度势,动态权衡:在拥堵时,更侧重“效率”与“舒适”;在高速行驶时,极度强化“安全”权重。系统根据实时场景动态调整成本函数的权重分配。
    • 预测棋步,预判应对:通过预测模型,推演其他交通参与者未来数秒的可能行为,并在此基础上规划自身轨迹,如同棋手计算对手的应手。

    在一个足够真实、实时的三维环境地图中,自动驾驶的决策算法正如围棋AI一样,凭借不知疲倦的全局搜索、精确的价值评估和强大的预测推演能力,在复杂动态博弈中超越人类直觉的局限。它将驾驶从一项基于经验和反应的任务,转变为一项基于实时优化与战略博弈的精确科学。

    最终目标是让车辆像一个依靠双眼和大脑的、经验丰富的人类司机一样,能够理解复杂的3D世界,并做出灵敏、安全、拟人的决策。这条技术路线抛弃了对预定义高精地图的依赖,将“识图”和“决策”的重任完全交给了车载AI系统,是自动驾驶走向通用化的关键路径。

    四、控制层,车身控制与人车合一

    自动驾驶的规划层输出的是一条高维、连续、动态的时空轨迹,它期望车辆能作为一个整体协调动作。传统分布式车身控制是由上百个孤立、低维、反应式的ECU拼凑而成的。车辆只能被动反应,无法主动调节到最佳姿态,轻则导致舒适性下降,重则导致车辆失控。

    CWZONNT.png

    1.传统汽车:分布式协同的“机械仆从”

    车辆分布式电子电气架构由上百个来自不同供应商的独立电子控制单元(ECU) 构成,分别掌管发动机、变速箱、ABS、车身稳定等孤立功能。

    工作模式:
    • 被动与补救:多数控制(如ABS、ESP)在驾驶员操作之后或车辆状态失稳时才介入,旨在补救和稳定。
    • 信息孤岛:ECU间通过CAN/LIN总线进行有限通信,协同复杂,难以实现全局优化。
    • 固化与封闭:软件与硬件深度绑定,功能升级依赖更换硬件,用户体验在出厂时即被限定。

    2.智能汽车:集中式赋能的“主动执行器”

    迈向区域控制与中央计算作为“神经中枢”,统管一个物理区域(如左前、右后)内的所有传感器和执行器(车门、灯光、座椅等),并向上与中央计算机高速通信。

    模式颠覆:
    • 主动与可预测:控制服务于更高层的驾驶决策,能进行前瞻性的主动调节(如预调节悬挂以应对前方颠簸)。
    • 全局协同:动力、制动、转向、悬挂等执行器在统一指令下像“交响乐团”般协同工作,实现传统架构无法达到的综合性能。
    • 软件定义与持续进化:硬件资源被抽象化,核心功能由软件定义。通过OTA(空中升级),控制算法可以持续迭代,让车辆的“驾驶体验”像智能手机系统一样不断优化升级。

    3.控制层是自动驾驶的“手脚”,其核心任务是精确、平稳、及时地将规划层的“思想”(时空轨迹)转化为车辆的“行动”。

    场景自适应:在湿滑路面上,转向与制动更温和、线性;高速巡航时,转向手感沉稳;拥堵跟车时,启停如老司机般顺滑。

    体验可进化:通过OTA,车企可以持续优化控制算法。一次升级,可能让刹车更平顺、加速更跟脚、过弯更稳健,让车辆的“驾驶性格”越开越懂你,越开越好开。

    自动驾驶的竞争,在感知、决策之后,最终会归于执行体验的较量。极致的驾驶体验,意味着车辆的反应与驾驶员的预期高度一致,如臂使指。从而达到一种安心、舒适、甚至愉悦的“人车合一”状态。

    五、总结现有技术和未来的展望

    视觉成为“主脑”:以 BEV、Occupancy Network、端到端大模型为核心的视觉算法,将成为环境理解和决策的绝对主导。

    D78W0.png

    其他传感器成为“本能反射”:毫米波雷达、激光雷达的角色将演变为高可靠性验证和关键安全冗余,用于补足视觉在极端情况下的短板,尤其是在追求更高安全等级的L3/L4系统中。

    因此,视觉路线正成为技术演进的主流和基石,但在可预见的未来,尤其在L3及以上级别,以视觉为核心、多传感器协同的融合感知方案,因其更高的安全冗余度,很可能仍是更主流的选择。
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    小黑屋|路丝栈 ( 粤ICP备2021053448号 )

    GMT+8, 2025-12-7 23:11 , Processed in 0.065832 second(s), 23 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表