地平线刘文尧:从「对世界的测绘」到「对世界的领会」,让车作为「」去认知世界
7月11日-7月13日,“2024中国汽车论坛”在上海嘉定召开。在“高级别自动驾驶论坛”上,地平线智驾产品市场总监刘文尧围绕地平线最新在高阶领域的进展以及高阶未来发展发表了自己的观点。
刘文尧认为,现在在智能化上给世界各地的其他市场都带来代际差的感觉,最核心的代际差来源是高阶智驾系统。我们现在看到了中国以外的汽车行业的企业家,不管是特斯拉这样的行业后起之秀,还是像大众这样传统的汽车巨头已经非常肯定中国在整车新能源的市场,智能化市场的领先性。
在整个中国市场上可以看到,电动化是最近几年汽车行业蓬勃向上发展的原始动力。但是从去年开始,可以明显发现高阶智驾领域成为持续做智能汽车代际差的核心动力。比如去年发布的两款关注度很高的车型,一款是20-30万之间的小米SU7,还有一款30万以上属于豪华级别市场的问界M9,这两款车的厂商都是来自于以前3C领域的企业,通过智能化去定义新的豪华,把竞争从原先只属于30万以上的市场拉到现在20万以上的市场当中。甚至可以看到在20万以内的车型,也开始部署高阶智能驾驶的功能。从去年开始,在新能源领域,对消费者的而言,选购一款20万以上的车型,高阶智驾成为必不可少的功能。
地平线在产品的规划上一直很看重美国科技圈的一个理论叫做“跨越鸿沟”,这个理论是讲:任何高科技的新的功能都需要走过创新者、早期采用者、早期主流用户时间的周期,核心突破点就在于中间的早期采用者和早期主流用户之间的这样一个gap,这个是跨越鸿沟理论核心的点,这个鸿沟就在这13.5%到后面的34%中间的时间点。如果把它投射在现在的高阶智驾领域市场的渗透率上来看,其实前几年真正能够在行业当中用得起高阶智驾系统的车辆基本上都还是在高端车型上。从去年开始,可以看到正在往更低价格的车型、往早期采用者方向渗透。真正能够看到带来跨越鸿沟的点,有两方面关键的因素:
第一,汽车行业的内卷——单纯地互相竞争智驾是什么样的配置,有什么样潜在支持的功能。但是光有这一点不够,毕竟智驾是科技驱动的属性,而不是单纯因市场竞争带来成本竞争的行为。
第二,真正关键的点是体验层面需要有一个能让用户很认可的突破性变化,才有可能真正实现从早期采用者到早期主流用户的跨越,实现产品的市场规模化。
地平线对这个时间点的判断大概是在2025年底、2026年开始会有这样的变化。目前来看市场也是这样一个驱动的演进形式。
在这种市场背景下,对于地平线这样一个芯片 方案的供应商来说,需要做充足的准备,在真正2025年的跨越鸿沟的决胜期之前做好足够的产品体验和技术上的预研。刘文尧表示:“从整个经验上的总结来看,主要依赖三个维度的能力做高阶智驾的破局和引领,我们内部叫“铁人三项”:第一,技术的领先性。我们希望能够一直采用行业最尖端的技术范式,技术理念做产品的预研。第二,工程的千锤百炼,光有技术的尖度不够,真正在量产过程当中解决的都是非常繁杂的,双手沾满泥土的工程问题。第三,产品以人为本,毕竟我们产品落地以后,需要有真实的市场和用户来买账,需要让用户直接感受到这个高阶智驾系统足够好用。”
这是真正支持地平线打造跨越鸿沟产品的三个核心方向。
第一,技术上的引领性。
地平线是软硬一体的公司,在创业初期对软件的理解远大于对硬件本身的理解,创业团队大多都是做软件出身的,所以一直保留着对软件前瞻性的深度挖掘。
2022年地平线公布了基于端到端感知算法的Sparse4D,主要是针对稀疏性的感知、现有的BEV架构做进一步性能的优化。
2022年年底发布了业界的第一个真正完整端到端自动驾驶大模型UniAD,在2023年初获得CVPR的bestpaper。这更倾向于one-model的架构,也是后续成为一个行业做自动驾驶研发的端到端技术的benchmark。
UniAD是超前的技术架构的理论,但是地平线现在行业当中主要用的还是two-model的架构,需要有一个端到端的感知和一个端到端的交互博弈、规控的策略。地平线在模仿学习和强化学习上,针对规控的应用做了很多深度的技术的积累,不管是生成式的规控,还是混合强化学习的方法,都发布了相应的paper。
第二,工程千锤百炼。
前面有了技术上的引领性,还需要有足够双手沾满泥土的工程化的经验。
这是地平线相较其他行业的初创科技公司比较不同的地方,地平线一直以成就客户为公司核心理念,截止到今天已经做了无数多的量产项目,110 以上的量产车型,陪伴用户走过百亿公里的行驶里程。这些都意味着地平线有了充足的基础设施建设、跟客户以及用户对接的量产经验,能够更好地将领先的技术落地到实际的量产环境当中。
第三,产品以人为本。
刘文尧表示:“这个也是我个人的老本行,我是做产品市场出身,也是这次演讲当中希望重点能跟大家展开的,究竟是什么样的产品才是我们认为的能够有这样跨代体验进步的高阶智驾的产品,以及通过什么样的方法才能做得出来。”
对于智驾,如果清晰地把它定义为三个用户可理解的阶段,会定义为:可用、好用、爱用。
从现在的智驾环境当中,实际上认为大部分的城区高阶智驾系统连第一个阶段“可用”的标准都没有达到。高速NOA勉强可以达到“可用”的标准,正在往“好用”方向演进。高阶智驾达不到“可用”的核心原因主要有四个方面:
1、怂,在很多拥堵复杂的城区场景当中过于关注安全性的保守智驾策略,导致通勤效率极低。
2、莽,不得不为了规划的轨迹和路线去行驶到一个拥堵的没有人让车的环境当中,现在的系统会呆滞在那,做不出选择,造成人为的截断。
3、急,跟现在行业当中主流的基于地图的技术路线有关,急迫的开城节奏造成了系统整体可用性下降,虽然是开了城,但是有地图覆盖的城市和无地图覆盖的城市体验有非常大的波动性。
4、贵,高阶智驾系统对于汽车售价的价格区间并没有那么高的汽车厂商,全部做标配其实是很难负担得起的,只能在比较高的配置当中用。它其实根本起不到真正普惠给用户大规模部署的作用。
怎么去解决现在不可用的问题?地平线在2023年年初就公布了当时对于解决“好用”这个问题的逻辑。地平线当时把“好用”分解为两个方向:一是ScaleUp,二是ScaleOut。
ScaleUp可以理解这个系统在解非常难的场景时候的能力上限,它到底能不能真正像人一样去解决非常复杂的交通场景当中的通行问题。如果只能像一个特别机械的工具一样,复杂场景中在那等着,其实是不够ScaleUp的能力。ScaleOut其实就是能够在更多的地理环境、时空环境、天气环境下去达成场景通行的能力,这是一个泛化性的概念。
现在整个行业当中,既有ScaleUp做得特别好,也有ScaleOut做得好,但是很少能把ScaleUp和ScaleOut同时做好,中间的这个像基因双螺旋的形态,才是真正的用户希望的好用的智驾系统。地平线希望借助我们在算法,自己的芯片基础设施,以及工程能力上的积累去尝试同时解决ScaleUp和ScaleOut的问题。
举两个现在行业当中最领先的自动驾驶相关科技公司的例子来看。
如果看ScaleUp,做得好其实就是Robotaxi当中最领先的Waymo,在亚利桑那首府菲尼克斯、还有凤凰城、旧金山都能够支持自己的Robotaxi运营的区域当中有非常好的通行效率的体现,包括各种各样的罕见的障碍物、诡异骑行的小哥都能做通行的绕行。
再一个是特斯拉,特斯拉从ScaleOut上讲是泛化能力极强的一个系统。首先它是在一个非常明确的量产环境中做的,跟waymo改装车的环境是不一样的。第二个是它系统整体的泛化性是非常强的,在美国的各个区域基本上现在可以做到都能开。即便如此,在非常特殊的一些城区环境内还是会出现非常不类人的接管问题,它的上限虽然很高,但其实下限也很低,稳定性有很大的问题。
可以看到行业当中最领先的玩家在ScaleUp和ScaleOut上是很难去做到同时兼顾。其核心原因是跟现有的行业主流技术栈有关。
行业主流的方案基本上都是two-model,真正落地的没有one-model的完整端到端的形态,大家基本上还是按照感知和规控的方式做。two-model的方法基本上就有两个方向:一是感知接一个rule-based规则驱动的规划和控制。二是端到端,感知是一个端到端,同时导到一个基于神经网络(NNbased)的规控当中,最后接控制。这两种现有的two-modelbased的技术架构都有各自的系统限制。传统的规则控制的系统当中,它的性能上限在城区当中非常有限,尤其在中国复杂的价值环境当中,每一个城区的复杂场景很难由一个清晰的规则描述出来,但是它的好处在于,在一些复杂的场景当中,能够有一个硬规则去规定它的下限。
端到端的技术路线由于是数据驱动,它的上限表现更高,明显在更复杂的场景当中有更好的体验。但是由于它是一个不可解释的黑盒模式,完全放弃规则驱动意味着它的下限不可控,很有可能出现人无法解释的一些诡异的驾驶安全行为。而且在这个行为出现的情况下,很难对它做一个快速的badcase迭代。
ScaleUp的问题是由端到端和rule-based来去呈现的。那么ScaleOut的难题就要跟现在行业当中最热的有图还是无图的话题联系在一起。
传统意义上来说,最先实现高阶的系统基本上重度依赖高精地图,地图覆盖的地方就可以用,地图没有覆盖的地方,这个功能无法启用,这是一个广度的问题。还有鲜度的问题,比如地图覆盖的地方和现实实际的场景出现了偏差,比如说现实的道路维修了、拦上了施工的区域,地图的信息没有及时更新,这个功能就会出现降级甚至出现接管。如果从体验里程的连续性来说,重地图的路线会出现中间不可避免的断点。同时由于重度依赖地图,体验上限不会高,因为人不会沿着地图上画出来的固定轨迹线路去开。
行业当中比较流行的轻图或者所谓的无图路线,能够很好地解决原先高精地图去制约的场景覆盖的问题,也就是即使没有高精地图覆盖的地方,通过感知去输出动静态的信息,可以让它功能开启,而且功能的连续性也会得到一定的保证。但是它的问题在于,体验的波动会非常大,有图覆盖的地方和无图覆盖的地方,体验的波动性会非常明显。从一个有图覆盖的大城市,到完全没有图覆盖的乡间小路,智驾本身体验就会有非常大的区别,而且在面对一些复杂的拓扑结构时就会非常难应对。
如何同时解决现有行业当中的ScaleUp和ScaleOut难题?
地平线在今年北京车展发布了SuperDrive高阶智驾系统最新的进展。在感知上,地平线引入了worldmodel的概念,worldmodel是现在行业中机器人领域比较领先的理念,人在思考过程中,做任何的决策都是来自于大脑当中的一个世界模型。这是一个对世界整体的认知,在认知当中去做相应的规划和决策。这跟传统的端到端感知的区别就是会把所有的传感器的信息,以及泛化性做得比较好的标清导航的信息全部扔到worldmodel模型当中做训练,后面产出动静态和高维特征级信息。worldmodel能够很好地解决不管是重图还是轻图对于地图的依赖性,因为标清的导航信息从广度和鲜度上来说,已经是行业中解决得比较好了,导航当中有足够多时间维度的信息,以及下一秒用户驾驶决策的提示信息。
在这个情况下,用导航泛化性比较强的信息训练模型,就能摆脱它对更高精地图的依赖,这个时候不管再有众包的地图,还是高精度地图,都是潜在的世界模型训练的一个可选输入,它不再是一个必选输入。这个情况下,worldmodel可以自己脑补或者补全地图缺失或者地图信息不全的地方,这个更接近于人开车。
举个例子,在开车过程当中,如果驾驶者在中国开十几年的车,突然有一天去美国或者欧洲,很难想象驾驶者需要在那先去踩一遍图再开,通过worldmodel可以解决场景的泛化、功能的连续性以及体验的一致性的问题,实际上就是可以直接去开。
在worldmodel之后,地平线引入了一个数据驱动的交互博弈的规控算法。这个规控算法和传统的NNbased区别在于保留了rule-based的链路在。为什么这么做?如果只保留NNbased规控的决策,它的上限可以做得很高,地平线刘文尧:从「对世界的测绘」到「对世界的领会」,让车作为「」去认知世界同时它下限很低。引入rule-based在一些关键的安全产品当中去依靠rule-based兜底,很好地保证系统的下限能够符合安全的场景。比如说在行人礼让当中就更依赖rule-based的方法来做。
中间就是依赖着worldmodel对规控产出两个层级的信息:一是传统意义上的动静态的信息,二是为了后续向更完整的one-model方向发展的无损的高维度的特征级信息,这两个做结合,才能做到同时的ScaleUp和ScaleOut的突破。
worldmodel核心想要达成的目标就是将现在的感知所面临的稳定性的问题,上限不够高的问题,准召率的问题能够通过端到端one-model的方式做到解决。
如果把worldmodel和传统的地图的概念去做一个对比,其实worldmodel是一个更拟人世界认知的模型。传统的地图是根据人为制定的某种规则,把世界当中某一些信息抽象出来,不同精度的地图就是不同精度规则的区别。worldmodel更趋向于人对世界的认知,人类在认知世界当中的很多的信息,如果只是靠地图抽象,其实就已经通过这种规则给筛选掉了。worldmodel是更无损地还原车辆对世界的认知,这个时候只要导入足够多的传感器,足够多的导航的信息,就能够很好地训练AIDriver对世界的领会和认知。
可以看到不管是在行人的鬼探头,还是复杂路口当中各种各样的群体的行人,包括施工区域,以及停车环境当中的小区的抬杆,worldmodel都会更稳定、更精准,更及时的感知结果。
交互博弈,这个是在规控层面上的一个新的理解。传统意义上来说,大部分的规控,如果你只是基于规则驱动,就会遇到最早说的“怂”的不好用的问题,过于保守。如果你用单向的方式让它博弈,它就出现过于“莽”的问题,通过数据驱动的交互博弈的方法,能够在有限求解空间当中做更拟人的最优解。
如何去做到这一点?这就需要把原先的单向式的串行的预测决策链路变成一个交互式的,互相推演、演进的交互决策的链路。这样才能够让它更拟人,更摆脱传统的规则驱动下的机械感。
从功能的设计上来说,现在的功能的实现倾向于没有更多的功能的区隔。传统意义上来说,行业当中喜欢把智驾放为L2、ICA、高速NOA,程序NOA,分为泊车,实际上真正一个好用的智驾,对用户来说只有一个模式的切换,就是人在开、车在看,还是车在看、人在看。人在开、车在看的时候,就是主动安全工作的时候,车在开、人在看的时候,就是一个高阶智驾的L2 的功能的实现,根本不需要有那么多功能的切换,启动了就是启动了,启动了就是你把驾驶权交给车,由驾驶者来监督车,不启动就是驾驶权在人自己,车来替人兜底,就是这样一个区别。
对此,刘文尧还表示:“我们其实是希望底层有一个AlwaysON主动安全的系统,一直帮助人在开的时候,能做安全的兜底。”这种情况就是在系统启动以后,上面所有的程序场景、高速场景、泊车场景在用户端都是一个功能实现的,用户只需要解决要去哪、要停在哪的问题。这个车开到目的地以后会自动在界面上提示出潜在停车的位置,选完之后直接泊进去,上车之后开启功能,只需要输入目的地就可以。甚至驾驶者不输出目的地,它也可以自己开。
地平线整个SuperDrive产品的落地是在征程6旗舰芯片上,也就是征程6P。从整个的芯片的Performance来说,针对传统的CNN的算法以及最先进的transformer算法的FPS的表现,相较行业其他芯片有明显的优势,这是来自本身在软件上的一些理解,以及软硬结合的特别优化。
除了芯片之外,SuperDrive是一个完整的从软件到传感器硬件,到芯片的完整的解决方案。在传感器上并没有非常的激进部署很多车载激光雷达、很多车载高清摄像头,而是选择相对折中的11颗摄像头,两颗前视800万像素,剩下的还是主流的200万像素的摄像头。车载激光雷达只有前向的一颗,毫米波雷达有三颗,一颗前向的,两颗后角的毫米波雷达。
从产品的功能层面上来说,地平线希望最后给用户的是一个不管在什么样ODD的场景下都可以一键开启的,模式上不需要有太多的切换,不会带给用户很高的使用成本或者学习成本,能够给每个用户在旅程使用上提供比较完整的、体验不断点的好用的智驾系统。
最后刘文尧展示了地平线DEMO车的进展,视频显示是在北京和上海的一些比较高峰拥堵的道路上。可以看到在引入了交互博弈之后,在城市环境非常复杂的路口和行人的环境当中,已经可以做到非常自如地礼让和启停,不会像现有的量产系统一样就会傻在那里。
比如视频中可以看到其实车辆是要往左去做变道,在变道的过程当中,包括做这种无保护左转当中,很有可能出现对向的车流或者旁边的车流不礼让的情况,这时候就需要有足够的能力去博弈。在中国经常会遇到旁车根本就不会让变道的情况,所以就需要有足够强的插空能力。
从落地的实践上来看,地平线希望最终量产时间就是在2025年Q3能够做首款的量产合作车型的交付。到今年年底,地平线会先去做一个基于现有开发环境的标准量产方案的推出,同时去解决ScaleUp和ScaleOut问题的标准版量产方案,对HorizonSuperDrive之后的表现也是非常值得期待。
评论