世界模型可以用于人形机器人训练么?

发布者:Blissful567最新更新时间:2025-11-14 手机看文章 扫描二维码
随时随地手机看文章

今天继续聊聊用仿真数据训练人形机器人的话题。


早上师妹发了篇文章,关于李飞飞世界模型Marble的,这篇文章里有部分内容,描述的是Marble世界模型的可编辑性。


“Marble内置了AI原生世界编辑工具。编辑可以细微而局部:移除物体、修饰区域;也可以更加彻底:替换物体、改变视觉风格,或重构世界的大部分结构。这为世界创建过程带来了全新层次的精细控制。”


看过我之前文章的朋友,可能会有印象,我一直强调仿真数据是具身智能VLA模型训练的必选项,但用于仿真的数据资产,一定要“可控、可编辑”。


如果世界模型Marble能够做到可编辑,是否生成的3D内容可以用于具身智能模型的训练?


但一位朋友经过实测Marble后,给出的答案明显是否定的。


大家可以看看图片效果,这是一个通用的不能再通用的客厅场景。


图片


首先,关于可控性的问题。


文生内容的模式,幻觉是不可避免的。桌子椅子都出虚像了……本来我还以为是截图的时候的拖影,其实真实图像就是这样。


上周徒步的时候,和做CAE仿真的孙博士也讨论过这个问题,文生视频能否用于训练。其中很大的问题也是可控性,生成内容质量不保证,需要“抽卡”,重复多次才能找到可用的。


而且模型训练动辄百万级的数据量,需要基于大量基础场景做微调,很显然,文生内容的模式,针对cornercase尚且还可以,但普适性会差很多。


另外,关于可编辑性的问题。


大家可以看看生成的3D视频经过Mesh转化后的白模文件,简直是无序的乱啊。哪个设计师愿意上手编辑?


就跟程序员不愿意修改别人代码一样,而且还不带注释。


所以朋友点评的好,所谓的可编辑,只是理论上的可编辑,实际编辑的时间成本超过人工手动重新建模。


所以我建议啊,李飞飞老师可以来找我们,我们的平台可以批量生成海量的3D场景和资产数据,可以把Marble世界模型训的更好。


最后,关于数据可用性问题。


世界模型文生3D视频的模式,确实可以解决一部分VLA模型中的V(Vision)的数据问题,比如生成机器人视角的场景数据,有助于帮助机器人认知周围世界。


但仅此而已,VLA模型中的A(Action)所需要的数据,才是最重要也是最难获得的数据,是机器人和物理世界交互的数据,目前主要依靠遥操作机器人采集真机数据,这个单靠世界模型是解决不了的。


如果想通过仿真模式获得交互性数据,得通过仿真引擎,叠加有物理属性的资产,在虚拟环境中交互获得。


引用地址:世界模型可以用于人形机器人训练么?

上一篇:宇树科技上新,首款轮式机器人G1-D发布
下一篇:2025机器人:宇树机器狗分析与深度拆解

小广播
最新机器人文章
厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关:

索引文件: 1 

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved