datasheet

QbitAI量子位

文章数:551 被阅读:5210871

账号入驻

英伟达的“千人摩擦计划”:几千个智能体互相玩耍,学习跑酷更轻松

2018-11-05
    阅读数:
摩擦栗 发自 凹非寺 
量子位 出品 | 公众号 QbitAI

听说,互相摩擦,有助于快速学习。

如果,模拟器里只有一个强化学习智能体,它可能活得很自在。

天大地大,虚拟机器人做个空翻、回旋踢之类,都不是稀有的技能,只是需要艰苦训练罢了。

那么,要是让几千个人形智能体,一起在模拟器里跑呢?

它们就会相互摩擦,亲昵地扭打在一起,形成一幅不可开交的美妙图景。

这不是重点,关键是智能体在摩擦的过程中,学起技能来,会比孤独的时候快很多

英伟达就想用这种方法来加速学习,于是开发了自己的物理模拟器。

在那里,人类跑步的姿势,智能体不用20分钟便可解锁。且只要一个CPU核心,不要成百上千。

相互摩擦,是最美的

英伟达开发的是一个GPU加速模拟器,支持千百只人形智能体,在同一个世界愉快地互动。

并且,只要一个Tesla V100 GPU,加上一个CPU核,就够了。

为了智能体更好地学习人类技能,团队为四种技能设定了Benchmark,由易而难:

一是,只用两条腿、但是像蚂蚁那样跑步 (不是说好的人类技能啊) :

二是,依然用两条腿、但像人类那样跑步:

三是障碍跑,遇到球球会站不稳,重点是重新找到平衡,不要摔倒:

四也是障碍跑,不过地形复杂,还是要在站不稳的时候努力保持平衡:

在复杂地形下训练过的智能体,会拥有随机应变的能力。

即便是在从未见过的环境里,从超过一人高的平台跳下也能迅速站稳,继续奔跑。

放进现实里,大概就是这个样子:

一个顶一千个?

现在,来和前辈们对比一下时间硬件成本:

一个CPU核心,抵得上一千个?

是有了GPU加持之后,模拟器每秒可以生成6万帧,帧时间 (Frame Time) 能降到0.02毫秒以下。也就是说,帧延迟小到几乎可以忽略。

那么,就算智能体的数量从5个增加到5,000个,也不会有什么压力。

由此,即便只用一个CPU核心,学习效率也可以得到保障。

这项研究,是在英伟达的物理引擎FleX里面完成的。

很快,团队就要在CoRL 2018大会上,介绍研究成果了。

在那之前,大家可以欣赏一下论文:

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning
https://arxiv.org/pdf/1810.05762.pdf

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



最新有关QbitAI的文章

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: TI培训

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved