今天继续聊聊用仿真数据训练人形机器人的话题。
早上师妹发了篇文章,关于李飞飞世界模型Marble的,这篇文章里有部分内容,描述的是Marble世界模型的可编辑性。
“Marble内置了AI原生世界编辑工具。编辑可以细微而局部:移除物体、修饰区域;也可以更加彻底:替换物体、改变视觉风格,或重构世界的大部分结构。这为世界创建过程带来了全新层次的精细控制。”
看过我之前文章的朋友,可能会有印象,我一直强调仿真数据是具身智能VLA模型训练的必选项,但用于仿真的数据资产,一定要“可控、可编辑”。
如果世界模型Marble能够做到可编辑,是否生成的3D内容可以用于具身智能模型的训练?
但一位朋友经过实测Marble后,给出的答案明显是否定的。
大家可以看看图片效果,这是一个通用的不能再通用的客厅场景。

首先,关于可控性的问题。
文生内容的模式,幻觉是不可避免的。桌子椅子都出虚像了……本来我还以为是截图的时候的拖影,其实真实图像就是这样。
上周徒步的时候,和做CAE仿真的孙博士也讨论过这个问题,文生视频能否用于训练。其中很大的问题也是可控性,生成内容质量不保证,需要“抽卡”,重复多次才能找到可用的。
而且模型训练动辄百万级的数据量,需要基于大量基础场景做微调,很显然,文生内容的模式,针对cornercase尚且还可以,但普适性会差很多。
另外,关于可编辑性的问题。
大家可以看看生成的3D视频经过Mesh转化后的白模文件,简直是无序的乱啊。哪个设计师愿意上手编辑?
所以朋友点评的好,所谓的可编辑,只是理论上的可编辑,实际编辑的时间成本超过人工手动重新建模。
所以我建议啊,李飞飞老师可以来找我们,我们的平台可以批量生成海量的3D场景和资产数据,可以把Marble世界模型训的更好。
最后,关于数据可用性问题。
世界模型文生3D视频的模式,确实可以解决一部分VLA模型中的V(Vision)的数据问题,比如生成机器人视角的场景数据,有助于帮助机器人认知周围世界。
但仅此而已,VLA模型中的A(Action)所需要的数据,才是最重要也是最难获得的数据,是机器人和物理世界交互的数据,目前主要依靠遥操作机器人采集真机数据,这个单靠世界模型是解决不了的。
如果想通过仿真模式获得交互性数据,得通过仿真引擎,叠加有物理属性的资产,在虚拟环境中交互获得。
上一篇:宇树科技上新,首款轮式机器人G1-D发布
下一篇:2025机器人:宇树机器狗分析与深度拆解
- 热门资源推荐
- 热门放大器推荐
- LTC2263-12 演示板,12 位,25Msps,1.8V 双路串行 ADC,5MHz
- 用PIC单片机设计电子密码锁
- AM1G-2424DH30Z ±24V 1 瓦 DC-DC 转换器的典型应用
- 无线充电电动牙刷设计
- OP497FSZ平方放大器典型应用电路
- 基于LTC3453的LED闪光灯驱动器设计
- PAM2808 5W 大功率高亮度 LED 驱动器的典型应用
- 使用 Analog Devices 的 LTC1258CS8-5 的参考设计
- 基于ARM处理器的EtherCAT 通信开发平台 -原理图
- 适用于 ADP1741 2A 低 VIN、低压差线性稳压器的具有可调输出电压、0.75V 至 3.3V 的典型应用电路

非常经典的关于LLC的杨波博士论文
LM311M
XC6406PP60DL






京公网安备 11010802033920号