华为、理想、特斯拉、商汤的世界模型是做什么用的-电子工程世界

47a33876-cfc8-11ef-9310-92fbcf53809c.jpg?imageView2/2/w/1000

图片来源：网络

为什么要做世界模型，它实际上是端到端自动驾驶的闭环仿真，世界模型可以看做VLM的逆向工程，用prompt这些文字提示输出视频。世界模型和端到端模型是一个互相帮助的过程，世界模型生成的视频交给车端大模型，车端大模型通过它的规划执行接下来的动作，接下来的动作产生新的场景、新的视角，再通过世界模型继续生成新的数据，进行闭环仿真的测试。

47b92f28-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

图片来源：网络

不同于CARLA这些测试型仿真，世界模型是训练型仿真，它要达到海量规模才有价值。

47d6bf70-cfc8-11ef-9310-92fbcf53809c.jpg?imageView2/2/w/1000

图片来源：网络

世界模型生成视频可以是自监督的，无需3D标签，可以使用海量网络汽车驾驶视频。最重要的是它可以生成现实世界中极难采集到的长尾视频，这是其核心价值。换句话说它生成的视频价值是现实世界采集到的视频数据的价值百倍以上，但成本是其1%不到。

47f20140-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

图片来源：网络

所谓世界模型就是视频生成加prompt控制。视频生成有四大类型，包括基于对抗网络GAN的，基于扩散模型的，基于自回归模型（基本上就是transformer）和基于掩码的。其中，扩散模型再分为Stable Video Diffusion (SVD)和Stable Diffusion (SD)两种，它们还有一种共同的称呼即隐扩散模型（Latent Diffusion Model, LDM）。目前也有结合diffusion和transformer的模型即DiT，但它本质上还是扩散模型，只不过用transformer替换了扩散模型中的Unet。大名鼎鼎的SORA则是复合型，Sora模型的核心组成包括Diffusion Transformer（DiT）、Variational Autoencoder（VAE）和Vision Transformer（ViT）。DiT负责从噪声数据中恢复出原始的视频数据，VAE用于将视频数据压缩为潜在表示，而ViT则用于将视频帧转换为特征向量以供DiT处理。据说特斯拉就是用的SVD。

基于世界模型的端到端训练

4811fe96-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

图片来源：网络

生成视频的质量分为两部分，一是视频本身的准确度，主要指标有三个，一个是FID/FVD，另一个是CLIP得分。FID（Fréchet Inception Distance）是一种用于评估生成模型，尤其是在图像生成任务中，生成图像的质量和多样性的指标。它通过比较生成图像与真实图像在特定空间内的分布来工作。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。对于生成图像集和真实图像集，分别通过Inception网络（通常是Inception V3模型）计算它们的特征表示。这一步骤会得到每个图像集的特征向量，计算每个集合的特征向量的均值和协方差矩阵，并做对比，都是高等数学的课程，这里就不展开说了。FVD和FID接近，相当于把FID的图像特征提取网络换成视频特征提取网络，其他都差不多。最后一个是北大提出来的，就是Trajectory Agent IoU (NTA-IoU)，与设定轨迹的交并比，Novel Trajectory Lane IoU (NTL-IoU)，与设定车道的交并比。

二是视频本身的长度、帧率和分辨率，要尽可能与传统自动驾驶训练视频达到一致的帧率和分辨率。

目前世界模型生成视频的方向有两个，一个是追求更长、更多视角、更高分辨率，代表作有商汤的《InfinityDrive: Breaking Time Limits in Driving World Models》，华为的《MagicDriveDiT: High-Resolution Long Video Generation》，Wayve的GAIA-1，地平线的DrivingWorld。另一个是追求近乎真实的3D场景渲染，理想在这方面情有独钟，理想的Street Gaussians、ReconDreamer、DriveDreamer4D都是这个方向，也是这个领域的主要代表作。

4829e9ca-cfc8-11ef-9310-92fbcf53809c.jpg?imageView2/2/w/1000

图片来源：网络

特斯拉用的什么世界模型，自然是未知，也许它根本就没用世界模型。

483836ec-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

注：“Ours”指的就是InfinityDrive

图片来源：商汤论文《InfinityDrive: Breaking Time Limits in Driving World Models》

4855bcf8-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

图片来源：华为的MagicDriveDiT

华为不仅能生成超高分辨率，还能生成多个角度的视频。

4890c258-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

数据来源：地平线的DrivingWorld，数据尺度比较大，分辨率也很高

我们再来看另一条3D渲染线，它的核心应该说有点偏离世界模型的本来意义了，它是追求接近真实的3D渲染，基本上是理想汽车的独角戏。三个比较有价值的模型基本都有理想汽车的身影，第一个是Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting，浙江大学和理想汽车合作，九位作者，其中来自理想汽车的作者占四位。第二个是DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation，由极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出，十二位作者两位来自理想汽车。第三个是ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration，总共十六位作者，其中来自理想汽车的多达八位，来自极佳科技的有六位。

48a50434-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

图片来源：论文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

上图可以看到，理想汽车与极佳科技合作的最新成果就是ReconDremaer，纯粹StreetGaussians的话，一旦偏离中心视角，容易出现空洞或鬼影，车道线也出现扭曲。

ReconDreamer整体框架

48caa7b6-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

图片来源：论文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

除了生成视频，还有生成激光雷达点云视频，如理想与澳门大学合作的《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》，还有生成语义分割图的《SynDiff-AD: Improving Semantic Segmentation and End-to-End Autonomous Driving with Synthetic Data from Latent Diffusion Models》。

OLiDM的整体框架

48d1378e-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

图片来源：论文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》

上图中，世界模型生成激光雷达点云视频，再拿这个去训练激光雷达的识别能力。

48ebf6a0-cfc8-11ef-9310-92fbcf53809c.png?imageView2/2/w/1000

数据来源：论文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》。

OLiDM的效果，能有两三个点的提升，已经是非常难得了，现在在nuScenes上0.001的提升都需要一年半以上的时间。

世界模型一点也不神秘，不仅是端到端自动驾驶，它对传统自动驾驶也有明显的提升，自动驾驶的数据成本也大幅度下降至少95%以上，那些所谓影子模式变得毫无价值，实际上没有世界模型生成视频，影子模式本身也毫无价值，这也是马斯克说他用扩散模式生成视频的原因，如果影子模式真有价值，何必多此一举？

关键字：华为理想特斯拉商汤引用地址：华为、理想、特斯拉、商汤的世界模型是做什么用的

上一篇：德州仪器AWRL6844雷达传感器助力车内安全系统设计
下一篇：Norflash闪存芯片HT25Q20D广泛应用在汽车电子领域

推荐阅读最新更新时间：2026-03-20 15:14

华为、理想、特斯拉、商汤的世界模型是做什么用的

最近世界模型（World Model）很火，甚至有人说世界模型是终极自动驾驶解决方案，实际上它只是端到端大模型的一种，和VLM没有本质区别。目前的研究基本都集中在用世界模型生成视频或其他连续时间序列上的可视化数据，再用这些视频训练传统或端到端的自动驾驶模型，几乎没有人研究直接用世界模型做自动驾驶的。即便是视频生成，也还是处于实验室的学术研究阶段。图片来源：网络为什么要做世界模型，它实际上是端到端自动驾驶的闭环仿真，世界模型可以看做VLM的逆向工程，用prompt这些文字提示输出视频。世界模型和端到端模型是一个互相帮助的过程，世界模型生成的视频交给车端大模型，车端大模型通过它的规划执行接下来的动作，接下来的动作产生新的场景、

[嵌入式]

<font color='red'>华为</font>、<font color='red'>理想</font>、<font color='red'>特斯拉</font>、<font color='red'>商汤</font>的<font color='red'>世界</font><font color='red'>模型</font>是做什么用的

比亚迪预研世界模型，为了自研智驾追赶华为、小鹏

比亚迪自研的端到端智驾模型，起步晚了，如今世界模型不能晚。为了跟上高阶智能驾驶的自研进度，比亚迪尝试越过别人踩过的坑。我们独家了解到，比亚迪已经成立了一个专攻世界模型的研究团队，组织架构上归属于先进技术研发中心。比亚迪的世界模型研究还处于很早期的预研阶段，春节假期前预计将进行一期结果的交付。但与真正的目标，距离还有很远。与车型等项目的开发不同，世界模型的研究是前沿技术，没有成熟方向可参考，结果很难控制。我们了解到，比亚迪的世界模型研究保持了小团队作战，目的是提高效率、快速试错。先要完成的任务是先把世界模型研究的链路走完整，探索研究路径。比亚迪的世界模型，是高阶智能驾驶研发的一部分，是端到端智驾大模型研

[汽车电子]

一年砸10亿，理想发力端到端，只落后特斯拉半年了？

进阶至端到端竞赛，车企在智驾领域的段位便明显拉开了差距。其中影响因素诸多，数据量和算力是两个重要因素，也是车企在端到端时代面临的最大挑战。这背后，裹挟着车企的财力、人力与判断力。也可能过去数年的数据积累，到如今一无用处。但是没人可以置身事外，逃避就意味着被淘汰。角力智驾，端到端只是一个开始。智驾，已经成了众车企不得不攻下的堡垒。这是一个不进则退的赛场，稍不留神，就会被对手甩在身后。从2023年开启的开城之战，到如今的端到端竞赛，场上的玩家不得不绷紧了神经，不敢有丝毫懈怠。所谓端到端，即深度学习中的概念，英文为“End-to-End（E2E）”，指的是一个AI模型，只要输入原始数据就可以输出最终结果。应用到自动驾驶

[汽车电子]

理想要对特斯拉下手了

理想一手开启了自造榜单先河，并且在今年，理想的榜单有了微妙的变化。在3月的周榜单中，理想在中国豪华品牌上险量排名中加入了特斯拉，而在2月的豪华品牌上险量中，特斯拉还被排除在理想的豪华品牌之外。特斯拉在中国市场依然在靠Model 3和Model Y主打中国市场。所以是理想变了，野心和目标更大了。今年一季度，是理想新车型集中上市的阶段，每个月理想都在刷新交付量。在蔚来还在摩拳擦掌赶超雷克萨斯时，理想4月交付量超过2.5万辆，比豪华品牌第二阵营的凯迪拉克多了8000辆，在豪华品牌阵营，理想仅次于BBA。但是这还不够，理想汽车董事长兼CEO李想在分析师会上还是要不谦虚地说，理想6月交付量有望突破3万辆。当分析

[汽车电子]

<font color='red'>理想</font>要对<font color='red'>特斯拉</font>下手了

华为、小鹏、理想、比亚迪、合众加入“战场”

近年以来，车企大佬们隔空互怼的情况时有发生，这次针对的是AEB技术（自动紧急制动系统技术），参与“口水战”的至少包括余承东、何小鹏、李想、赵长江、张勇等品牌和车企的一把手。最开始是，何小鹏在接受采访时公开表示：第一，大部分人可能从来没有碰过AEB。第二，友商讲了AEB，我认为99%是假的，它就是造假，那些宣传都不是公司官方发布的，全是来自小视频。我们的人也去问了，它的AEB根本不能开，路上误刹车的情况太多了。何小鹏认为目前（汽车）行业里谈AEB，主要是纵向AEB，它在触发时，大部分情况下的速度是在60公里每小时以内。如果速度过高，一旦误刹车，对用户来说将会是巨大的惊吓。 “我们现在（使用）的XNGP技术，

[汽车电子]

<font color='red'>华为</font>、小鹏、<font color='red'>理想</font>、比亚迪、合众加入“战场”

为了理想中的高度，华为AI未来将如何发展？

悄然间，AI技术正在带来愈发清晰的时代变革。如今我们习惯了生活中的人脸识别和语音交互，知道了各行各业都能与AI结合，见证了所有科技公司都开始谈论和使用AI。然而这样一场大浪潮中，大部分人其实还是迷茫的：AI未来到底能发展到什么高度？为了理想中的高度，今天需要什么？AI给每一个人带来了何种机遇？这些问题来临时，大家更希望看到领军者在做什么，从而找到一条可以参考和借鉴的路。毫无疑问，在新的国际环境和技术节点上，中国科技产业的目光正在聚焦于华为。不久之前，外界知道任正非在最新讲话中说：“人工智能才是大产业，才是华为发展的战略要地。在人工智能发展的三个核心要素中，美国有超级计算，有超级存储，但没有超速联接，如果又不用5G

[嵌入式]

为了<font color='red'>理想</font>中的高度，<font color='red'>华为</font>AI未来将如何发展？

传华为Mate 10用上麒麟970 续航更理想

在上半年的华为P10发布后，华为下半年的旗舰机Mate 10也将浮出水面。最近有外媒表示，华为Mate 10有可能搭载10纳米工艺的麒麟970处理器，来看一下详情。传华为Mate 10用上麒麟970 据称麒麟970的性能表现与骁龙835移动平台和三星Exynos 8895相差不多。麒麟970采用Cortex-A73架构，GPU部分则可能选择Mali-G71MP8，不过CPU和GPU的主频信息目前还不清楚。 10纳米工艺可能会让麒麟970的续航表现更好，华为Mate 10预计会在今年10月或者11月发布，并且可能使用类似三星和LG旗舰机的超高屏占比屏幕。本文属于原创文章，如若转载，请注明来源：传华为Mate 1

[手机便携]

世界模型可以用于人形机器人训练么？

今天继续聊聊用仿真数据训练人形机器人的话题。早上师妹发了篇文章，关于李飞飞世界模型Marble的，这篇文章里有部分内容，描述的是Marble世界模型的可编辑性。 “Marble内置了AI原生世界编辑工具。编辑可以细微而局部：移除物体、修饰区域；也可以更加彻底：替换物体、改变视觉风格，或重构世界的大部分结构。这为世界创建过程带来了全新层次的精细控制。” 看过我之前文章的朋友，可能会有印象，我一直强调仿真数据是具身智能VLA模型训练的必选项，但用于仿真的数据资产，一定要“可控、可编辑”。如果世界模型Marble能够做到可编辑，是否生成的3D内容可以用于具身智能模型的训练？但一位朋友经过实测Marble后，给出

[机器人]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■你晒单我买单2026第1期报名中，DigiKey得捷带您畅享好物！

■有奖直播：AI基础设施技术测试周

■免费申请《一本书讲透汽车功能安全：标准详解与应用实践》，挑战《ISO26262标准》共读，赢好礼

■装备焕新月：e络盟Multicomp Pro系列产品，小投入，大升级 —— 装备焕新惊喜体验