汽车产业目前处于多项变革同时发生的时期,科技进步推动变革产生,新变革催生新的需求。智能座舱作为汽车市场下个阶段的竞争焦点,各主机厂正试图通过产品差异化来占据市场优势。用户对汽车座舱功能的需求维度也在不断拓展,智能座舱开始成为消费者日常生活的一个延伸,一个可移动的生活空间。未来的智能座舱将更多地兼顾“内容”、“服务”甚至是“主动智能”的升级。
那么,对于即将在未来投入应用的前沿技术,以及那些已经在实践中得到应用的技术成果,智能座舱领域又有着怎样的期待和展望呢?
本文目录:
*注:本文作者张慧敏的新书《智能座舱:架构、原理与车规级芯片》近日出版,该书系统地剖析了智能座舱的多个子系统、基础软件及应用/服务的原理与架构,以及底层技术SoC的原理与实践。
虚拟现实(VR)和增强现实(AR)技术,一度非常火爆。VR技术给用户提供一个交互式的虚拟三维空间,通过感知单元提供视觉,触觉,听觉等感官的模拟,让人们进入虚拟世界。VR需要用户使用特定的头盔形成一个密闭的虚拟空间。AR技术则不然,它是以现实世界为主体,通过全息投影镜片把显示内容与现实世界叠加。戴上AR眼镜,用户将可以接收与真实世界相关的数据化信息。
虚拟现实技术将为智能座舱提供更强大的沉浸式体验。为了支持虚拟现实和增强现实技术,智能座舱需要满足如下的电子技术要求。
虚拟现实和增强现实技术是通过人的眼睛,营造一个通过视觉而感知的虚拟世界。因此,出色的图形渲染能力必然是VR和AR技术的首选要求。对于人眼的感知能力而言,当显示屏幕的像素密度达到60PPD(Pixel Per Degree,即每度视场角包含的像素数目)时,人眼便无法分辨出单个的像素颗粒,这种状态通常被称为“视网膜屏”效果。若一个VR/AR眼镜的视场角(FOV)达到100°,那么为了在这个视场范围内都达到视网膜屏的效果,单眼的水平方向就需要至少6000个像素(这里假设视场是水平方向的,且PPD均匀分布)。另一方面,所谓的4K屏幕,其分辨率为3840*2160(UHD, 超高清分辨率),双眼就要求达到2*3840*2160的分辨率。因此,分辨率越高,用户观看VR/AR的体验效果就越好。
同时,由于VR/AR的显示屏距离眼球太近,为了避免用户产生眩晕不适,我们需要调节镜片与眼部的瞳距,并提升刷新率。针对VR/AR眼镜的显示帧率,最好是能达到120帧/秒。这个图形渲染的要求已经超过了当前手机SoC芯片的显示分辨率。因此,智能座舱芯片要想能使VR和AR的体验效果达到最佳,就要提升CPU、GPU、VPU、DPU以及DDR带宽和显示接口的能力。一般SoC芯片采用的MIPI DSI接口无法满足要求,需要考虑使用DP或者HDMI接口。
2. 多元的交互能力
VR/AR技术为用户构建了一个沉浸式的虚拟世界,而为了实现真正的交互和沉浸感,用户与系统的交互方式显得尤为重要。简单的信息接收已不能满足现代VR/AR体验的需求,用户期望能够更自然地与系统沟通。
目前,手部交互和语音交互是两种主流的人机沟通方式。用户可以通过VR手柄、游戏摇杆等传统设备与系统互动,这种方式虽然经典但稍显局限。为了更贴近真实世界的交互体验,穿戴式设备如手套、指环等逐渐受到青睐,它们为用户提供了更为直观和自然的操作方式。而手势识别技术的兴起,更是为VR/AR交互带来了新的革命。借助舱内摄像头,用户的手部动作被精准捕捉,进而实现3D手势识别。这种交互方式无需额外的物理设备,让用户能够更自由地与系统沟通,大大增强了沉浸感和真实感。
当然,未来的交互方式还有巨大的探索空间。随着脑机接口等前沿科学研究的深入,我们或许可以期待一种更为直接和高效的交互方式的出现。那时,用户只需通过意念即可与系统沟通,这将为VR/AR技术带来前所未有的变革。
3. 超强的感知能力
座舱内的虚拟现实技术,与普通VR/AR眼镜相比,具有得天独厚的优势,因为它能充分整合和利用车载传感器的强大感知能力。举例来说,架构师可以巧妙地将车外摄像头捕捉到的沿途美丽风景实时投射到VR/AR眼镜中,使用户能够在享受虚拟世界的同时,也不错过旅途中的任何一处迷人景致,从而实现旅行拍摄和记录的独特功能。
更有趣的是,用户在虚拟世界中的刺激冒险也能被投射到车载屏幕上,让家人和朋友一起分享游戏的欢乐和紧张刺激。这种互动不仅增强了用户与家人之间的情感联系,也让虚拟现实的体验更加丰富多彩。
而为了进一步提升沉浸感,汽车的空气悬挂系统、座椅的通风和按摩功能、空调和香氛的控制系统,以及支持环绕立体声的音频系统,都被巧妙地融入到虚拟现实体验中。这些智能系统的联动,让用户在虚拟世界中遨游时,能够感受到更为真实和震撼的视听触感,从而获得前所未有的沉浸式体验。
4. 强大的计算能力
智能座舱在VR/AR应用中的计算能力是其核心优势之一。为了减少用户戴上VR/AR设备后可能出现的眩晕感,智能座舱的计算单元会进行一系列精密的计算和补偿操作。
例如,智能座舱的计算单元能够通过摄像头追踪用户的眼球注视焦点,然后计算并渲染针对用户的显示区域。这一功能对于调整VR/AR内容的呈现方式至关重要,可以确保用户所看到的内容始终与其视线方向保持一致,从而减少视觉上的不适感。 为了提供更加自然的虚拟现实体验,智能座舱需要实时计算VR/AR设备的6Dof(6 Degrees of Freedom,六个自由度)空间自由度。这意味着设备可以在X-Y-Z三个轴方向上转动,具体分为YAW(绕Y轴)、Pitch(绕X轴)、Roll(绕Z轴)的旋转,再叠加空间运动的定位信息(在三个轴方向上的移动),从而实现6个自由度的精确控制。通过这种计算,智能座舱能够精确地知道设备在空间中的位置和朝向,进而对显示屏投射进行运动补偿,以消除因设备移动或用户头部运动导致的画面抖动或错位,从而大大减少用户的不适感觉。
图1所展示的是一个面向未来的AR眼镜应用场景,其中,AR眼镜被用于显示导航信息。
#02第一个车载游戏的具体时间已经难以考证,但据资料显示,早在上个世纪80年代,一些汽车品牌如丰田和本田就开始尝试在车载娱乐系统中加入简单的电子游戏功能。这些游戏通常比较简单,例如“贪吃蛇”、“俄罗斯方块”等,目的是为了在长途旅行中给乘客带来一些娱乐。然而,这些早期的车载游戏功能并没有得到广泛普及,因为当时的电子游戏技术还比较初级,而且车载娱乐系统的硬件和软件也相对简单。随着智能座舱的普及,车载游戏开始与座舱的智能化技术相结合,产生了更加多样化的游戏形式和体验。 在车载游戏领域,“3A大作”这一词汇近来备受瞩目。所谓“3A大作”,即指那些成本高、规模大且品质卓越的单机游戏。它们以绚丽的画面、充实的游戏内容及深层次的体验吸引着无数玩家。
特斯拉曾经在Model S车型上演示了3A游戏,例如《赛博朋克2077》、《巫师3:狂猎》、和《刺客信条:奥德赛》。在这些游戏中,玩家可以进行角色扮演,探索广阔的世界并完成任务。然而,引入这些游戏必须要考虑到软硬件的生态问题。例如,这些游戏运行在与Steam Deck(一个掌上游戏发行平台)相同的Linux版本之上,其运行硬件平台是AMD公司的x86 CPU和RDNA GPU(独立显卡)。一般基于ARM的SoC还不能运行类似的游戏。
1. 车载3A游戏技术路线
在座舱中引入3A游戏大作,可以考虑如下3条技术路线:
使用x86架构的芯片构建座舱SoC
使用x86芯片平台构建座舱SoC是一种可行的方式。相比移动端的ARM架构,x86芯片平台具有强大的计算能力,可以满足3A游戏大作的高性能需求。x86平台搭配运行的操作系统是Linux系统,这意味着基于Steam(一个电子游戏数字发行平台)的大量游戏可以直接在这个系统上运行。其庞大的游戏库和持续的更新都为座舱提供了持续的游戏内容。因此,x86的生态系统已经满足了许多3A游戏大作的要求,为游戏开发者提供了便利。
运行Android手机类游戏
Android手机类游戏的崛起不容忽视。以《原神》为例,这款游戏凭借其精致的画面、丰富的世界观和深入的角色定制赢得了全球玩家的喜爱。它的受欢迎程度不仅仅在于游戏本身的品质,更在于Android平台为其提供了广泛的用户基础和便捷的更新机制。与其他平台相比,《原神》在Android上的表现更加出色,其优化后的版本可以充分利用ARM平台CPU和GPU的性能,为用户提供流畅的游戏体验。
当前,新能源车智能座舱采用ARM架构和Android操作系统的比例很高。将手机上的3A游戏移植到座舱上,成本较低,花费较少,具有广泛的用户基础,是一条可行的道路。
采用游戏机投屏方式
还有一种可行的方式是采用游戏机投屏方式。这种方式可以利用已有的游戏机和游戏资源,不需要进行大量的开发和移植工作。例如任天堂公司发布的Switch、索尼公司的PS5和微软公司的Xbox等(以上三者都是流行的游戏机硬件设备)。这些主流游戏机都支持投屏功能。通过HDMI线缆或者DP线缆,这些机器可以将游戏画面投屏到座舱内部的中控大屏上。用户可以在座舱内享受到与家庭游戏机相似的体验。这些游戏机已经拥有庞大的游戏库,且持续更新,确保了游戏的多样性和新鲜感。同时,由于是直接从游戏机投屏,所以在画面质量和流畅度上都有很好的保障。
2. 智能座舱SoC能力要求
为了直接通过座舱的计算平台运行3A游戏,智能座舱SoC需要满足如下一些条件:
出色的GPU渲染能力
如果我们希望通过座舱SoC直接运行3A级游戏,那么不论是选用x86平台还是ARM平台,高性能的GPU都是不可或缺的。通常情况下,在ARM平台上,SoC内部会直接集成嵌入式的GPU IP核;而x86平台则往往会采用一块独立于SoC的GPU。x86平台下的独立GPU算力可以远超ARM架构下的GPU,其从个人计算机环境继承而来的桌面级GPU的图形渲染管线更能为游戏场景增添惊艳的光影效果。然而,采用更强大的GPU也会带来空间布局和散热等更为复杂的挑战。因此,在设计座舱域控制器时,必须全面权衡高性能GPU所带来的利弊。有时会需要采用主动降温方式,但这样又增加了成本。
供电能力
不同的座舱平台在运行3A游戏时会消耗不同的电能。ARM架构通常配备嵌入式GPU,其供电功率一般约为十几瓦。而x86架构的独立GPU在运行游戏时,供电功率可能高达120瓦。
对于外置式游戏机而言,三大游戏机的供电需求差异显著。Switch作为一款掌上游戏机,可通过USB Type-C线进行快速充电,其供电功率为33瓦。PS5和Xbox则属于家用游戏机类别,体积更大,对电源功率的要求也更高。PS5需通过电源插座供电,其额定功率为350瓦。Xbox则分为两个版本:Xbox Series S的电源功率为165瓦,而Xbox Series X的电源功率高达330瓦。因此,若智能座舱内需支持游戏机投屏功能,就必须考虑供电能力是否充足,以及是否配备了220V电源插座。这些因素将对车载供电能力的分配和座舱内部布局产生影响。
丰富的车载接口
将家用游戏机的画面投屏到座舱内部大屏幕,这与将游戏机投屏到客厅的电视机或电脑显示屏类似。Switch游戏机可以通过其壳体上的USB Type-C接口直接输出DP视频信号,同时也可通过一个转接底座,将DP信号转换成HDMI信号输出。而PS5和Xbox游戏机则都只支持HDMI视频信号输出。因此,座舱SOC需要配备DP或HDMI视频输入接口。这种有线投屏方式能够实现10ms以内的视频信号延迟,这对于动作交互类游戏的体验至关重要。
图2展示了特斯拉汽车在智能座舱内支持3A游戏的场景。
#03
车手互联
最早的车机与手机互联案例是利用蓝牙技术拨打电话。由于相关法规禁止驾驶员在驾驶时使用手持电话进行通话,但驾驶员在行车过程中又有通话的需求,因此,将车载麦克风和音响通过蓝牙技术与手机相连,便实现了非手持式通话功能。这种蓝牙互联的需求逐渐成为了刚性需求。
随后,车机和手机互联的进一步实现案例是苹果公司的CarPlay。CarPlay于2013年首次推出,通过与汽车制造商的合作,使用户的苹果手机能够与汽车仪表盘和中控台无缝连接,从而提供了多样化的功能。例如,通过CarPlay,用户可以轻松使用电话、短信、导航、音乐和其他应用程序,同时支持语音控制或触控操作。除苹果外,谷歌也推出了类似的系统——Android Auto,它可以将Android手机上的应用投屏到汽车中控台上。
对于苹果公司的CarPlay技术而言,它提供了两种将苹果手机与座舱系统互联的方式:一是通过USB数据线进行有线连接,二是利用蓝牙和Wi-Fi技术进行无线连接。在连接建立后,iOS设备的操作界面和各种应用程序功能会投射到车载屏幕上,用户便可通过车载屏幕和语音指令来操作iOS设备上的功能,例如导航、音乐播放和拨打电话等。CarPlay使用的互联技术是一组包含iAP2(iOS Accessory Protocol, version 2)协议的协议族,这些协议共同负责建立和维护CarPlay会话(CarPlay Session)。从技术层面讲,其无线连接的底层实现是基于Wi-Fi P2P(点对点)协议的,这种协议使得两个Wi-Fi设备无需通过接入点(如无线路由器)即可实现直接通信。
1. 公有无线投屏协议
一般来说,车机与手机实现无线互联的协议分为公有和私有两大类。公有协议通常包括DLNA和Miracast两种。DLNA(Digital Living Network Alliance,数字生活网络联盟)由索尼、英特尔、微软等公司发起成立,旨在实现个人计算机、移动设备、消费电器之间的无线网络和有线网络的互联互通。DLNA技术主要以实现内容分享功能为主,可以灵活地实现网络文件链接和流媒体的推送,具有连接速度快、协议轻量的优点。由于它只提供内容分享功能,并不需要在发送端进行屏幕捕获、编码等工作,因此对发送端的处理能力要求较低。DLNA也被称为“Push Mode”,即推送模式。在这种模式下,手机与座舱系统连接到同一个Wi-Fi网络。当需要互联时,手机发送一个视频资源的地址链接给座舱系统,后者通过该地址链接获取视频文件并开始在线播放。手机可以控制座舱系统的播放进度、音量等。
图3展示了基于DLNA的无线投屏系统框架。
从图3可以看到,DLNA技术的底层协议可以通过Wi-Fi路由器实现手机和座舱SoC的互联。此时手机甚至可以不在座舱内部,可以远程将手机上的音视频文件推送给智能座舱系统进行播放。当然DLNA也可以采用Wi-Fi P2P作为点对点直联方式,实现车机和手机之间的互联。 Miracast是另一种用于无线投屏的技术,由Wi-Fi联盟发布,也被称为Wi-Fi Display。它基于Wi-Fi P2P(Peer to Peer,点对点)技术,实现了音视频数据的无线传输与播放。自2012年10月起,Google发布的Android 4.2版本开始支持Miracast功能。由于它是一个开放的标准,并且得到了Android平台的支持,市面上支持Miracast的设备开始大量出现。在Miracast的R1版本中,仅实现了屏幕分享功能,并不支持通过网络链接方式传输音视频流文件。无论发送端播放的文件是何种格式,Miracast都会将抓取的屏幕内容编码为H.264格式后再进行传输。这样,发送端与接收端都采用固定的格式进行编解码,从而有效减少了兼容性问题。然而,屏幕的抓取与编码过程需要消耗大量的计算资源,这不仅对发送端的性能和配置提出了较高要求,而且还需要发送端提供硬件编码接口以提升编码效率。在R2版本之后,Miracast开始支持“Mirror Mode”和“Push Mode”两种模式。其中,“Mirror Mode”,即镜像模式,是直接抓取手机屏幕数据,编码为H.264等流媒体格式后,再传输到座舱系统的投屏方式。图4展示了基于Miracast的无线投屏系统框架。从图4可以看到,Miracast技术的底层协议通过Wi-Fi P2P协议实现车机和手机的互联。它最重要的功能就是可以采用“Mirror Mode”实现投屏。这样的场景使用灵活性更高。 2. 私有车手互联协议
在进行车机和手机互联时,一个主要的应用思路是将手机的计算能力扩展到座舱系统上。由于汽车电子的特性,座舱系统的算力平台必须符合车规要求,这通常意味着座舱内的SoC芯片性能会弱于同时期的消费类电子芯片。例如,智能手机芯片的算力逐年提升,而座舱SoC芯片却只能以三年或更长的周期进行更新换代。
鉴于这种算力分享的需求,汽车主机厂提出了新的要求,即通过私有协议实现手机和座舱系统的互联互通。这种连接不仅实现了Wi-Fi无线投屏的功能,还能将座舱的计算需求发送到手机端,利用手机芯片的资源进行计算,然后再将结果返回给座舱系统。这种私有协议的实施方式取决于各个厂家的具体实现途径,但它能为用户带来更加优质的体验效果。以蔚来汽车的“NIO Link”协议为例,其目标是构建以车辆为中心的全景移动互联技术,该技术融合了车辆和手机的多端软硬件能力,旨在连接用户、产品、服务和社区,为用户带来全新的移动互联体验。具体来说,在蔚来设计的手机NIO Phone上,实现了一个实体按键,即“NIO Link”车控键。这个按键不仅能在车内控制车辆功能,如空调调节、音乐控制、氛围灯切换等,还能在车外进行远程控制,如远程遥控空调、车辆召唤等功能。此外,NIO Link协议还支持天空视窗技术,该技术可以将手机屏幕的“第二画面”投射到中控大屏上,从而实现手机和车机的双应用并行运行,且可以左右灵活拖动。这种投屏技术适用于会议系统或手机游戏等场景,实现了手机资源与座舱资源的共享使用。
#04
多模态交互
人机交互模式在座舱内部的表现,一直以来都是评判智能座舱的核心标准。在非智能时代,用户只能通过各类按钮来操控车内功能。然而,随着中控大屏的兴起,大部分功能被整合到屏幕上,用户开始通过触摸屏来控制车辆功能。从触觉的角度来看,触摸屏与实体按键在操作感受上并无显著区别。直到语音助手的诞生,座舱内部的人机交互方式才实现了质的飞跃。通过对话,车载智能语音助手能够识别并执行人的指令,从而部分实现了对人类操作的替代。之所以说“部分”,是因为在实际使用中,车载智能语音助手有时难以精确理解人类的需求。例如,当用户说出“打开空调通风功能”时,智能语音助手可能会错误地理解为打开车窗,而非启动空调的通风模式。
此外,车载智能语音助手还无法识别对话的上下文,也无法与座舱内的多人同时展开对话。这种局限性使得语音助手显得缺乏人性化。未来,智能座舱的演进方向将是能够融入环境、像正常人一样对话、并能协助乘客的智能机器人。
如今,人们对座舱的人机交互模式提出了更高的要求,即实现多模态交互。最迫切的需求是将触觉、听觉和视觉相结合,以打造更加智能、精准的交互方式。目前多模交互已经锁定了几个研究的方向。1. 面部情绪识别
情绪识别是一种新兴的交互方式,可以通过识别驾驶员或者乘客的情绪来提供个性化的服务。研究方向包括情绪识别算法、生理信号分析等方面的技术,以提高情感识别的准确性和可靠性。
情绪识别的原理主要是基于对人类情感的理解和情感特征的提取。人类的情感通常会伴随着一些生理反应,如心率、呼吸、语音等的变化,这些生理反应可以被检测和识别。同时,人类的情感也会表现在面部表情、肢体动作等方面,这些也可以被用来识别情感状态。情感识别技术通过综合分析这些特征,来判断一个人的情感状态。
情绪识别的算法可以分为两类:一类是基于规则的方法,另一类是基于机器学习的方法。基于规则的方法是通过分析人的语音、表情等特征,来判断其情感状态。这种方法需要事先定义好各种情感的特征,因此准确度有限。基于机器学习的方法则是通过训练大量的情感数据来让计算机自动识别情感状态。这种方法需要大量的标注数据,但准确度较高。 随着Transformer模型(一种基于自注意力机制的深度学习模型)在越来越多的领域得到应用,多模态识别可以采集人类面部图像和语音数据,并使用Transformer模型来分析和识别人物的情感。举一个例子,我们可以在智能座舱内部使用DMS和OMS摄像头采集驾乘人员的面部图像,使用车载麦克风采集语音对话数据。而后,使用适当的算法和模型从面部图像中提取情感相关的特征,例如使用卷积神经网络(CNN)进行特征提取。对于语音数据,可以使用梅尔频率倒谱系数(MFCC)等特征进行提取。这些特征输入到Transformer模型的Encoder(编码器)部分进行进一步的处理和特征提取。在Decoder(解码器)部分,可以使用情感分类任务的目标函数来训练模型,使其能够识别不同情感的特征。2. 多人对话并发
在当前已投入使用的智能座舱语音助手中,存在一个显著的痛点,即无法支持多人同时对话。每当座舱内有其他用户提出问题时,他们总是需要先使用特定的唤醒词来激活语音助手,然后才能进行对话。这种操作会打断之前用户的对话进程,给用户带来不连贯的体验。为了解决这个问题,我们可以采用基于规则的对话管理和上下文管理策略来实现多人对话上下文的继承。
上下文状态跟踪:
我们需要构建一个对话的上下文状态模型,这个模型会记录对话的参与者、当前讨论的话题以及历史交流信息等。通过精细的对话管理,系统能够追踪每个参与者的交流意图和需求,从而确保对话的流畅性和内容上的连贯性。
上下文信息共享:
必须确保所有对话参与者都能访问和共享统一的上下文信息。这可以通过采用共享内存或者云端存储等技术手段来实现,以确保信息的准确无误和一致性。
上下文继承机制:
我们需要根据对话的上下文状态来制定合理的上下文继承策略。例如,在多轮次的对话过程中,系统可以继承前一轮对话中的关键信息和指令,以便于在接下来的对话中继续使用。同时,随着对话的深入和用户需求的变化,我们需要灵活地调整上下文继承的方式和内容。
自然语言理解:
借助自然语言理解技术,我们可以对用户输入进行深度语义分析。这有助于系统更准确地把握用户的意图和需求,从而更好地维护对话的上下文状态,并继承相关信息。
动态调整对话流程:
系统应根据上下文状态和继承策略,实时调整对话的进程和交互模式。这可能包括基于历史信息预测用户的意图,或根据话题的转变来更新交互内容,从而提升对话的针对性和效率。
总之,以上所提的处理方式只是上下文管理众多可能性中的一种。这个领域的研究仍处于前沿探索阶段,各种解决方案都在不断地演进和优化中。
3. 3D手势操控
3D手势识别是智能座舱中新兴的操控方式之一。以后排娱乐屏为例,在一些乘用车车型中,车顶的中央位置会配备一块显示屏幕,旨在为第二排和第三排的乘客提供优质的观影体验。然而,如何操控这块屏幕却成为了一个体验上的挑战。若采用触摸屏方式,由于距离的限制,第三排乘客难以触及;若采用语音控制,未经训练的用户可能会遇到下达指令的困难;而使用遥控器操控,则存在遗失设备的风险。针对上述各种不足,一种简单方便的操控方式是采用3D手势识别技术。
通过3D深度相机,我们可以采集用户的手部动作数据。随后,这些数据会经过预处理并被分割成独立的手势。利用深度学习算法,我们从这些手势中提取特征,并进行持续的跟踪和预测,从而准确地识别用户的手势动作并判断其意图。最终,用户的动作会被转化为具体的控制指令,例如隔空点击屏幕的某个图标或滑动屏幕进行切换等。这种操控方式不仅有效避免了上述方法的各种弊端,而且为用户带来了极为自然和流畅的体验。
4. 多模融合