双建平:基于车载场景的大模型语音实践之路

  11月7日-8日,2024中国汽车软件大会在上海嘉定召开。本届大会由中国汽车工业协会和安亭•上海国际汽车城联合主办,以“软件智领未来,融合共创生态”为主题,共设置“1场闭门会议、1场大会论坛和6场主题论坛”。其中,在11月8日下午举办的“主题论坛三:车联未来:引领智能座舱革命”上,惠州市德赛西威汽车电子股份有限公司成都分部副总经理双建平发表精彩演讲。以下内容为现场发言实录:

  今天还是收获挺多,首先自我介绍一下,我是来自德赛西威成都的双建平。今天给大家汇报一下,我们基于用户场景的车载语音及大模型实践,以及相关思考。总共会分成三部分,第一部分,车载语音的现状及趋势,这个我会用很快的时间跟大家聊一下,因为这部分内容大家都很清楚;第二部分,我们在车载语音中识别出来的场景,以及对应的实践;第三部分,基于以上的场景和实践我们采用的方案,大概这三部分。
  一、车载语音现状。
  刚才刘总也有提到,我们已经从感知智能过渡到认知智能,对车载语音来说,以前基本上是听得见、听得清,我们不停在追求各种参数指标,希望它的识别率能够更高,然后反应能够更准确,其实这是处在感知的阶段。我们希望它能够到认知这个阶段的时候,要变成听得懂,从听得见到听得懂中间会发生很多应用场景上的一些变化。目前,关于车载语音应用场景的打造,已经变成座舱里面差异化核心的关键。
  这些都是我们的客户,德赛西威与前面博泰一样,也是一家Tier1供应商。我们从客户那边看到几乎所有车载语音场景在大的趋势都呈现出一致性,更主要的是在追求差异化,这是我们国内非常典型的客户,它们在语音助手,以前叫语音助手,现在车载语音,包括未来变成个人助手时的一些差异化竞争。
  这是我们拜托车云那边,为我们做的第三方关于语音方面的调研,这个调研整体报告很长,然后大家围绕不同主机厂属性,包括新能源自主品牌、合资厂、豪华品牌等等,他们识别出来大家对车载语音上的痛点。总结出来,交付比较单一(教条式交互)、单一应用内智能、固定预设条件个性化、被动式学习。我们想逐步过渡到未来基于车载大模型的语音,让它能够更多支持口语化,更多能够区分我们是在车里闲聊,或者根本不是跟它对话时,不要被识别,朝这个方向上去做努力。我们希望围绕这个目标实现拟人智能的时候,语音助手能够支持口语化交互、跨应用/跨端场景智能、动态用户偏好、个性化推荐,以及主动式的学习。
  因为德赛西威是一家Tier1的供应商,大家在车载语音中会听过很多专门提供供应商的解决方案,比如讯飞、思必驰以及其他等等。我们德赛西威为什么要定位这样产品?我们想站在主机厂的视角,围绕真实用户出行场景,来实现车载系统的智能化来去做场景建设。也就是说,其实我们手里有比较全的真实数据,以及语音交互逻辑上的数据,这为我们训练后面模型提供了非常准确的基础,这是我们的定位。
  2018年开始推出鲸语1.0版本,到今年为止有6年的时间,主要通过以前的规则化、机器学习技术,到深度学习的技术,再到大模型应用的技术。
  二、德赛大模型语音场景实践。
  前面给大家分享一下背景,或者是现状和趋势,主要的场景大概分成三大类,三十多种。
  第一,常规场景下,也就是传统使用车载语音的指令式交互场景。
  第二,我们把一些重要的,比如对导航、地图、音乐、视频等等场景进行了重塑。利用模型的能力,让它能够支持更口语化的表达以及更准确的意图识别。
  第三,我们还有一些特色场景。比如个性化新闻摘要,利用大模型本身强大的总结生成能力,再比如儿童陪伴、场景生成等等。今天我们刚刚领了一个奖,关于手车互联,也就是车机与手机去融合的情况下,如何通过语音能够在手机和车机之间无缝切换。
  主要的场景给大家举一些例子,第一个关于以前大模型语音拒识,我们也有一些数据,很多时候最终用户不愿意用语音,是因为它经常会被误识别,不知道大家开车的时候有没有这样的感受,应该是会有的,索性就把语音直接给关掉了,这个就是关于拒识场景下比较重要的应用场景。以及中间我们在去重复表达的时候,它会被识别多次,或者中间有任何停顿的时候,它就已经被识别进去了,最后是不完整的,这就是传统语音中经常会遇到的情况。为什么是这样的?它其实是按照固定格式在里面预设,系统是不知道你什么时候停顿,什么时候还需要再表达,以及它怎么来理解你的上下文。
  如果考虑NLP,自然语言理解的这部分,我们有大模型加持它的时候,它的理解能力远远比原来时候要强得多,甚至是准确得多。你连续给它说同一个重复指令的时候,它能识别成是一个指令,而不是两个指令等等这样的。比如像右边,我想听周杰伦的《告白气球》,它是能够准确识别到你是想播放《告白气球》这首歌。以及我们车上有三四个人的时候,或者一个人以上,两个人出行或者后排都有人的时候,每个人都可以在多音区控制对话,这个现在很多都能实现。但是能够控制它多轮连续对话,这个现在目前是比较困难的,所以我们在这个上面也去做了多音区的独立记忆的多轮对话。也就是说,每个人都可以以自己的口吻去问它,即使中间有其他人被打断了,它还会继续到你上一次对话的上下文里面去。
  普通口语意图纠错的功能,以及跨场景的多轮对话,这个都是在大模型语音环境下能够实现的,包括模糊意图的理解、口语意图的纠错,还有跨场景的多轮对话。
  基本上现在新能源车里都有的一个功能,就是全局的所见即所说,就是大部分车都有的。比如我打开爱奇艺的时候,你可以直接说上面的文字。比如我想看《九部检查官》等等,口语化的表达就是它可以说一部分,我想看《九部检查官》或者播放什么……都可以与上面文字不一样,甚至它可以表达我想看背景图片是黑色的那部电影,就是背景图片是黑色的,背景图片是粉红色的,小猪佩奇等等。甚至它可以表达帮我继续播放上一次我看的那部电影,就是没有看见它都可以说。在实现这些所有逻辑的时候,CPSP是不需要定制的,零定制,直接从APP Store里面下载下来的应用就能够对它做准确的理解和识别,也就是最近比较火的APP Agent的那些能力。
  我们谈的比较多的,就是关于AIGC的能力。我们这种AIGC是与多媒体结合在一起的AIGC能力。也就是它在听这首音乐歌的时候,它会把这首歌的背景,以及背后的逻辑,是怎么样创作这首歌的,可以为车主挖掘出来。以及根据个人画像的能力,我们会主动为他推荐一首歌,或者推荐一些作品,甚至是推荐一些新闻,比如最近大选的事件,这都是基于他的行为所做出的理解,我们在这些方面探讨会比较多一些。
  三、德赛大模型语音技术实践。
  前面举了几个比较典型场景方面的分享,基于这个,至少有30个大类,有几百条垂类,再在里面做细分,它离不开技术框架的设计。我们整个分成了四层,基础大模型部署在惠州数据中心,我们有自己的模型训练和微调数据中心。因为我们不生产内容,我们会用到很多CPSP插件,包括上百家CPSP的能力。最后提供基于智能座舱生态的一些解决方案,包括语音增强、知识增强、个性化推荐和手车互联垂域应用,最后识别出来这些应用场景,大概是这样的。
  我们想解决原来在垂域中指令理解不足、口语泛化能力不足、拒识效果不佳等等,主要是围绕这三个来去展开的。其实关于语音给到模型里边训练的“种子”语料量就有1.3万多条,专门用于大模型微调训练,然后送进去的Test case就有1.3万多条,这都是标注好的,监督学习、强化学习标注好的语料,我们还会拿其中20%来去做模型测试。这是关于模型微调,今年年底之前,我们会联合3家主机厂,正式量产发布自己的端侧大模型,在12月份之前,各家都会公开这件事情,现在还不行。真正在端侧,我们内部叫G9代平台,G9平台上发布端侧大模型。
  关于语义增强的部分,这也是比较重要的一个事情。它怎么样能够尽量减少幻觉,尽量有长期性,尽量能够做到闭环管理等等,我们在这方面也是采用了很多自学习,以及知识库构建,包括语义解析的技术,主要是应对指令没有办法动态更新、模型更新周期长、大模型任务推理时间过长,就是响应是比较慢的。其实前面也有提到,基本上是小模型+大模型结合的思路。
  今天我们也领了一个奖,主要针对手车互联应用场景的控制。它可以在车上无缝隙控制类似微信、美团、支付宝等等APP。它通过智能学习方式来理解这些APP中的操作逻辑,实现手机和车机的深度融合。
  最后有一个个性化推荐引擎,每个用户都有自己的独立空间,在独立空间中做长期短期管理,以及做用户画像分析,最后为他推荐适合于自己的个性化内容。
  前面讲了那么多,德赛智能座舱里面有一个叫蓝鲸OS的网联系统,蓝鲸OS现在已经发布到第8代,明年车展我们会发布自己的蓝鲸9.0,蓝鲸9.0会以VUI作为主要入口。如果大家有机会可以到我们展台上体验一下,整个座舱里面原来通过触控交互的逻辑,现在全部通过语音重新定义UI的,这是整个逻辑。尽量去APP化,或者少APP化思路,通过以AI为入口,来去打造自己智能座舱生态。这里打一个简单的预告,明年车展的时候我们再见面。
  这是我今天的分享,谢谢大家!
  (注:本文根据现场速记整理,未经演讲嘉宾审阅)
版权声明:本文系汽车纵横网原创文章,如需转载请注明出处和作者,并加上指向链接:http://www.autoreview.com.cn,谢谢合作。

地址:北京市丰台区五圈南路30号院1号楼D座3层302室 邮编:100160 电话:010-63429223 E-mail:autoreview@caam.org.cn
《汽车纵横》杂志社有限公司 京ICP备17066428号-2