来源:驾仕派
极越AI DAY 2024这场活动应该算是这几年公开汽车活动中最硬核的一场。
百度智能驾驶事业群组首席研发架构师、IDG技术委员会主席王亮讲了百度的VTA基础大模型;百度副总裁尚国斌解析了百度LD如何利用自动驾驶视觉感知大模型生成车道级导航地图;百度语音首席架构师贾磊则详细说了视频语音融合、多合一、端侧大模型的创新应用。其中的技术细节甚至可以让很多汽车媒体感到“烧脑”。
不过这场活动中,可以看到极越CEO夏一平是“高度兴奋”的,虽然他并没有过多地讲解极越产品、只是发布了极越 V1.4.0版本,但是整场发布会的金句不断:
比如,“只有以AI来驱动,才算是真正的智能车”;
比如,“(极越01)它不仅是全球首台AI汽车机器人,也是行业真正意义上的第一台AI CAR,是智能化时代的标杆产品,没有之一”;
还比如,“极越依然是中国唯一,全球唯二,用纯视觉,实现全域高阶智驾的品牌,另一家是特斯拉,我们也非常期待特斯拉的FSD尽快在国内落地,大家可以对比一下谁更好用”;
再比如,“2024年,如果谁还没有落地‘智驾全国都能开’,谁就一定会在智能化浪潮中掉队”。
从夏一平的这些话语里面,你完全能察觉到他对极越未来的笃定,以及对极越选择大模型技术路线的自信。
而且夏一平的观点中,他尤其强调AI大模型对汽车行业的改造和颠覆,包括在他的发言和采访中,提及AI、大模型多达五六十次。在他看来,驱动汽车未来发展的就是AI、就是大模型。
“从整个行业的发展来看,AI+或是大模型+,跟整个汽车产业的深度融合,不仅仅给汽车产业带来新的改变,对人形机器人的发展也会有促进作用。”夏一平说,“我觉得未来对于AI有无限的可能,不管大模型加什么,对未来创造更多新的不管是产业发展也好,还是科技发展也好,都有非常大的驱动力。”
夏一平的这一观点其实和英伟达汽车事业部副总裁吴新宙在GTC上的演讲大致相同。
吴新宙认为,汽车行业正在从软件定义汽车走向人工智能定义汽车,这主要有三个因素在驱动:1、软件定义汽车已经无处不在了;2、自动驾驶堆栈的转变,会进入到端到端的人工智能堆栈;3、生成式人工智能的推动。
然而对于夏一平来说,目前他的苦恼在于,似乎汽车行业把“AI大模型”这几个字讲的太轻松了,让“AI大模型”成了营销词汇,并没有让消费者有真正的体验,这也使得极越01在市场上面临很多的不理解。
“当前,许多大模型其实只是一个噱头,很多人也不清楚大模型具体是什么。大模型是一个概念,是一种AI学习并逐步成长的计算方法,不同的算法有不同的模型,有语言大模型、感知大模型、端到端大模型。
应用于汽车上的大模型,最主要的区别在于上车体验,极越的大模型上车体验在全中国甚至全世界做得是最好的,比如最新的1.4.0版本功能,目前市场上看不到第二家。”夏一平对此很自信。
夏一平还有一个观点是:“关于三电技术,我认为今年可能已经走到尽头了。想在三电方面拉开差距几乎是不可能的,无论是电池、充电、电机,现在都越来越同质化。真正能够突破、赢得市场的,只能是看智驾能力的高低,以及智能化体验的优劣。
整个世界都在向着AI方向变化。我们会被AI的产品所围绕。所以,如果你的车不够智能,不是AI,会让人觉得已跟不上时代。”
由于大众对AI的不理解,更多人依然在比较产品配置、产品参数,因此夏一平说他现在的工作可能更像是一个科技的布道者,天天到极越的展厅和用户交流、去卖车,也直播智驾,是一个很真实的状态。
但也正因如此,外界所看到极越和夏一平眼中的极越完全是不同的,一个外界以为姗姗来迟、但在极越自己看来,却是极具前瞻性的极越。
夏一平毫不隐晦地说,很多车企挖走了百度的工程师、也用8295芯片,但是从他角度来看极越现在在AI智舱方面做的事别家做不了,并且不是因为芯片的问题。
“在智能汽车的时代,核心的竞争力是软件架构和电子架构,在这些方面,极越可以说是领先行业两代到三代。”他在专访中表示,极越是中国第一家整车做SOA化(面向服务的架构)的公司,让车辆对各个下层模块的能力有更好的跨域调度,实现底层操作系统所有域控全时云端更快、更安全的FOTA体验,还包括行业首个SOA化舱驾融合,形成系统级的安全冗余。
“这些开发难度很大,一开始全公司都做崩溃了,但我们坚持做下来了。极越拥有全车冗余环路的千兆以太网作为骨干网络,承载AI能力,实现全域融通、端云融通的整车电子电气架构。”他补充说,现在很多车还在用高速CAN、Flexray总线,面对大数据量、高并发的需求根本没办法,比如行驶时使用摄像头卡帧那都是很容易发生危险,但是极越在2021年开发首款车型的时候就已经开始考虑领先的电子电气架构和软件架构了。
夏一平的思考路径里面提出,从AI迭代到软件迭代,可以把大模型看作一个OS,这些是冰山上可以看到的,而再从底层OS到硬件SoC、电子电气架构的舱驾融合,这些都是冰山下的底层,而极越做的是从智能汽车的底层来重新架构。
把大模型视作一个全新的OS系统,这是夏一平在汽车产品上提出的新逻辑,也很符合当下AI领域的技术发展逻辑。
夏一平举了一个比较简单的例子,在APP应用时代,会先考虑把APP调用出来,放到Launch界面,然后再点击、搜索或者查找,整个流程是很复杂的,但是在大模型时代,直接通过语音或者指令方式就可以完成,大模型可以直接给出你需要的答案,所以大模型就是一个全新的OS。
“APP交互是上一个时代的产品、大模型可以解决所有的事情、语音交互是新的方式,”他说,“我们现在团队的基本工作原则是——一定要用模型的思路来解决。”
而且夏一平说,当你的手机是AI手机、电脑是AI电脑,你还会用传统的汽车吗?他的言下之意是,当AI在手机、电脑这些日常设备中普及之后,汽车也必然会AI化,这和智能手机时代的逻辑是一样的。现在的问题只是在于,极越如何在AI大模型这条路上走得更远。
他说,极越早在2021年就开始规划和部署AI大模型。而且现在极越基本就是云端训练、端侧部署,端侧再做优化,可以减少对网络的信赖,以实现高性能和低延迟。更重要的是,极越背后是百度的赋能,百度在AI大模型上不仅拥有经验,还有数据和算力,2.2EFLOPS的算力、大规模的自动驾驶车辆收集路面优质数据、百度的文心一言每天都在被使用,这些都支持了大模型的快速迭代。
这次极越AI DAY 2024上发布的百度Apollo自动驾驶视觉大模型VTA Net基础大模型就提供了静态检测、时序跟踪、实时建图、场景理解等能力。这个大模型被定义为“基础模型”,一方面是让极越纯视觉高阶智驾能力得到提升,另一方面则是基于大模型打造了智驾数据生产线、和LLM(大语言模型)一起做自动驾驶数据索引,还能通过生成式AI技术,让百度也具备高效处理长尾数据的能力——而不用再去专门找Corner Case。
同样,基于自动驾驶视觉感知大模型让百度LD车道级导航地图的生产也变成了自动化,实现端到端地图生成,这样可以在一天以内生成一个城市的车道级导航地图。这大大提升了百度LD地图的覆盖率,也让极越只要在有LD地图的城市就能实现PPA(点到点领航辅助)功能。
很快,百度视频语音融合的多模态交互方案也将上车,车载端侧语音识别大模型将在极越车端部署。百度语音首席架构师贾磊就表示:“更超强的技术一定是端侧大模型,让车机在任何网络环境下,都能快速响应用户交互需求并解答车辆相关操作的问题。”
“我们的迭代速度非常快,全年AI模型迭代次数达到324次,而且是真正上车的模型,基本平均一天就有一个模型上车。”夏一平对极越在大模型上的能力相当自信。而且他断言仅以智能驾驶而言,到今年年底,头部的智能驾驶玩家和第二梯队就会拉开巨大的差距,因为AI数据迭代的飞轮一旦起来之后,成长是非常快的,不会给后来者赶超的机会。
由于驱动极越产品力提升的是大模型,而大模型本质上是一个OS,是一种体验,而不是像其他车那样看配置表清单就能得出结论,这反而使得极越在销售端遇到了问题。
“和理想最近的反思有点相似,以为把车造出来就是1-10的过程,其实发现还是0-1的过程。我们在前期的目标用户找得不够精准。当要把车卖给非目标群体的时候,你会发现很困难,而当我们把车卖给科技爱好者的时候,甚至都不用介绍车的优势,他们就会买单。”夏一平聊到极越目前的销量情况时很坦诚地表示。
“作为一个新的品牌、新的品类产品,当一个用户进入我们门店的时候,思考的第一个问题不是我要买车,而是这个品牌是什么牌子,能不能信任。这也是我们要去解决的问题。当品牌还在建立认知的过程中,我觉得应该把多把用户带上车,通过卖场景、卖体验,这也是我们产品的优势所在——而不能去静态地卖配置。”
夏一平这个观点说得很实在,因为大模型的体验是不能从纸面信息看的,电子电气架构的优势也不是在配置单上看得出来的。这就好像很多人第一次使用文本大模型、文生图大模型时一开始都是很惊叹,看上去像是搜索功能,可背后完全是不同的运行逻辑。
所以极越目前的挑战就在于,如何把“AI大模型”这样虚幻的词汇让普通消费者可以更好地体验出来,这就将决定极越的销量。
不过夏一平在专访最后提到的一段话颇为真切:
“科技的发展不会倒退,包括现在的AI技术发展,GPT大模型,以及整个AGI发展,这些技术的发展将非常有效的推动整个智驾的飞速发展。”
“时代不会倒流,科技也不会倒流。”
或许正因为有这种对AI、GPT大模型这些创新技术驱动汽车行业进一步发展的信念,才是夏一平坚信极越能够最终成功的关键。
编后记:
写完这篇稿件之后的一天,和@朱玉龙-YL朱校长一起聊天,发现大家有一个很明确地共识是“AI大模型会成为一种全新的OS”。当然这个共识已经在一些ICT企业和车企里面提出来了,包括本文采访的极越夏一平也坚信AI大模型的OS逻辑,但是汽车媒体里面似乎还很少提到。
目前OS解决的问题是通过触达APP来实现需求的解决,但是由于APP/应用是延续了PC端的功能细分方式,所以整个OS系统还是“桌面”方式。这就造成目前车机界面的复杂性,需要一整套完整而繁琐的APP Launcher(可以把这个界面也看做是一个APP,只是这个APP常驻系统)。
这就带来了一个问题,就是APP成为了各个需求的一种入口,也使得我们其实是生活在APP的世界里面。你需要完成什么需求,那就是需要先明确自己应该用什么APP,比如听音乐是QQ音乐、看视频是爱奇艺、调整车辆某个功能需要进入到控制车辆的APP(当然,智能汽车上其实把车机控制集成到一个按键,但本质上也是APP)。这使得整个的体验其实是很迟缓的,要做到某个目的不是可以立刻得到结果的。
所以下一步智能汽车的进化,最大可能的技术进步,不是三电系统、不是800V之后再搞1000V,而是基于大模型带来的整个车内交互体验的变化。从现在的GPT来看,基本的一个逻辑就是可说即可得,想做什么直接说出来,然后经过一个黑盒在完成。消费者不会去关心这个过程是怎么实现的,只想的是得到结果,这个逻辑很符合用户需求的。
然后我还请教了数码领域的KOL@flypig对于手机行业目前端侧大模型的使用前景的预判,我发现手机行业对于大模型的使用场景也是一个探索阶段,但是完全没有汽车这边的场景广阔。
我个人认为其中原因有几个:1、手机还是一个重社交应用场景的硬件,这就注定了APP需求还是会更强,比如微信、飞书、微博这类,本身APP就已经是生态了;2、汽车功能需求单一、但对车辆控制复杂度却更高,触控的层级页面带来的问题更多,3、汽车安全性要求,在双手不脱离方向盘的情况下,没有触控的前提下语音交互是更有利的选择。所以基于大模型的车内交互就很重要了。
朱校长提出了一个很有意思的观点是,特斯拉目前的估值,不是基于汽车业务的,实际上大部分是基于AI、大模型这些的估值,所以特斯拉不是目前中国汽车产业的参照标的物了。特斯拉打造2.5美元的廉价车也不能支持它的估值,只有看特斯拉在AI上的突破。
但是我们都认为,现在大家对AI大模型的想象力太孱弱了,根本不知道大模型上车后会有什么场景。所以小米SU7发布会上雷军提出的理想文生图的大模型是没有意义的,还是要多模态融合,把视觉和地理位置结合起来,这会很重要,也是一个真真的个应用场景。
但是很大的问题是,要实现多模态的融合这一点还很难,算力、数据都是目前中国车企不足的地方的。不是说把海外公开的大模型搞过来就行。
更重要的是所谓的大模型本质上还是要布置在端侧,能够跑在端侧效率才会很高,这一点百度也在强调大模型的未来在端侧。这里面又有一个问题,一个是NPU的算力,还有一个是你需要大内存来布置端侧,同时内存和NPU的连接还要能够达到高速传输,这都是难点。
但是,大模型上车,这个未来已经来了。目前看中国汽车的市值也就这样了,或许下一步看看哪家真的能够把AI算力和大模型的研发搞起来。而我的一个猜想是,像百度这样的公司或许会成为一个新时代的Tier 1?