历史上的今天

今天是:2025年08月19日(星期二)

正在发生

2020年08月19日 | CMU数据集 Tilt-Bot :让机器人识别动作、画面和声音三位一体

发布者:CaptivatingEyes 来源: 学术头条作者: Lemontree 手机看文章 扫描二维码
随时随地手机看文章

想象一下你正在开香槟:这个场面不但有庆祝的视觉画面,而且会有开香槟时候的独特气流声。

真实的世界中总是有各种类型的信息丰富并满足我们五种感官的需求——视觉,触觉,气味,声音和味道。其中,视觉、触觉和声音更是在人类用身体去感受世界的活动中起着至关重要的作用。

一个真正的、具有智能的机器也需要捕捉所有三种感官的相互作用,以建立对世界的感官理解。

近年来,研究人员开发了越来越多的计算技术,以使机器人具备人类一样的能力。

卡内基梅隆大学(CMU)的研究小组最近进行了一项研究,探讨了用声音+动作+视觉(sound-action-vision)来开发具有更先进传感功能的机器人的可能性。

关于这项研究的论文由机器人学顶级会议 Robotics: Science and Systems 接收,其中还介绍了迄今为止创建的最大的声音+动作+视觉数据集——Tilt-Bot 数据集,由名为 Tilt-Bot 的机器人平台与各种对象进行交互收集而来。

Tilt-Bot的诞生

研究员 Lerrel Pinto 表示:“在机器人学习中,我们通常只用视觉输入来进行感知,但是人类具有的感知方式不仅限于视觉。”

“声音是学习和理解我们的物理环境的关键组成部分。因此,我们提出了这样一个问题:在机器人技术的探索中,声音究竟可以起到什么作用呢? 为了回答这个问题,我们创造了机器平台 Tilt-Bot,它不仅可以与对象互动,而且可以收集大规模的交互式视听数据集。”

Tilt-Bot 数据的收集过程是:一种自动托盘可以倾斜物体直到它们碰到石膏托盘的薄壁,Pinto 和他的同事在自动托盘四周的薄壁上放置了接触式麦克风,以记录物体撞击薄壁时产生的声音,并使用高架摄像头直观地捕捉每个物体的运动。

研究人员收集了来自 60 个物体和托盘之间超过 15000 次碰撞的视觉和声音数据。这样一来,便可以采集到新的图像和音频数据集,从而有助于训练机器人在动作、图像和声音之间建立关联。

Pinto 和他的同事在论文中使用此数据集来探索机器人应用中声音和动作之间的关系,收集了许多有趣的发现。

首先,他们发现分析物体移动和撞击表面的声音记录可以让机器区分不同的物体,例如区分金属螺丝刀和金属扳手。

Pinto 解释到:“令人兴奋的是,我们的研究初步结果——仅凭声音就识别出物体类型的准确率接近 80%。”“我们还证明,机器可以学习基于声音的对象表示形式,有助于解决后续的机器人任务。例如,当识别空酒杯的声音时,机器人会明白操作空酒杯和操作满酒杯需要不同的动作。”

其次,Pinto 和他的同事还发现,在解决机器人的任务时,录音有时可以比视觉表现提供更多有价值的信息,因为它们也可以用来有效预测物体的未来运动。

在机器人的训练过程中,一系列的没有碰撞到物体的实验中可以得出以下结论,当机器人与这些物体互动时收集到的嵌入音频预测正向模型(例如,如何在未来最好的去操纵一个物体)的准确率要比被动的视觉嵌入好 24%。

一个方兴未艾的研究方向

事实上,CMU 此次的研究与近年新出现的一个小众但又充满前景的领域息息相关,那就是视觉和声音的联合学习(Audio-Visual Learning)。

视觉数据可以用于推断几何形状、目标跟踪、分类甚至直接控制。而触觉也越来越受到重视,被用于识别和反馈控制
但是声音呢?从吱吱作响的门到沙子流动的沙沙声,声音往往能捕获视觉难以察觉的丰富对象信息。而且麦克风(声音传感器)既便宜又耐用,但是我们还没有看到声音数据被用于机器人学习上。迄今为止开发的大多数技术都只专注于人为地再现视觉和触觉,而忽略了诸如听觉感知之类的其他感官的作用。

为什么声音成为感知数据中的“二等公民”?

关键原因在于声音产生的核心。声音通过互动产生的,例如机器撞击物体,取决于击打的影响,对象,甚至麦克风的位置。这些错综复杂相互作用会产生非常丰富的数据,但也因此很难提取对机器有用的信息。
此前也有过类似的研究,例如“earning audio feedback for estimating amount and flow of granular material”,是一项通过声音来判断容器中的粒状物数量的探索。但这次的CMU团队认为,交互动作中的声音应该包含更多信息。

那么,具体可以从声音中提取什么样的信息?

通过构建 Tilt-Bot,这个团队提出了三个方向:声音表明粒状物信息。这意味着仅仅从物体发出的声音,经过学习的模型可以从不同的物体中识别出该对象。声音表明行动信息。这意味着从物体发出的声音,经过学习的模型可以知晓哪些操作被作用到该对象。声音表明视觉上“隐身”了的信息。这意味着从物体发出的声音,经过学习的模型可以推断物理上隐形的信息。

团队将公开发布 Tilt-Bot 的数据集,以此为机器人的开发工作助力,帮助机器人可以根据在周围环境中收集的音频录音和图像来选择自己的动作和对象操作策略。Pinto 和他的同事正计划进一步地研究,探索声音分析在创造具有更前沿功能的机器人方面的潜力。

Pinto 强调到:“这项工作只是将声效整体集成到机器人技术中的第一步。在未来的工作中,我们将研究基于声音和动作的更实际应用。”

引用地址:CMU数据集 Tilt-Bot :让机器人识别动作、画面和声音三位一体

上一篇:消防机器人:未来突破三大难题拥抱蓝海
下一篇:专访艾利特CEO曹宇男:协作机器人快速发展时机已至 好用是关键

推荐阅读

      三星的Galaxy Note 9将在一周后在全球上市销售,虽然这款手机相较前代有不少升级,但外观设计几乎保持不变,整体和Note8几乎无法区别。本周早些时候,三星介绍了Note9的设计流程,同时解释了为什么该机和上代产品看起来这么像。  三星Galaxy Note 9的设计主要变化是增加了显示屏的尺寸,但整体尺寸跟Galaxy Note 8几乎相同,新机提供...
来自卡内基梅隆大学与明尼苏达大学的研究人员日前利用无创的脑机(BCI)技术,成功开发出第一款由大脑控制的机器人手臂,具有连续跟踪光标的能力。该成果发表在 Science Robocs上。仅依靠大脑意识实现无创控制机器人装置,将具有巨大的应用潜力,尤其是将改变瘫痪患者和运动障碍患者的生活。 在科幻作品中,意念控制的实现可以顺手拈来、轻而易举。而...
蓝牙技术联盟(Bluetooth SIG)今日宣布正在制定一项让可穿戴设备加入现有智能手机接触风险通知系统(Exposure Notification System, ENS)的规格标准。通过将接触风险通知系统扩展到如手环等可穿戴设备,让小学生以及居住在护理机构中的年长者等智能手机普及率较低的人群,能够加入使用。此规格草案预计将在未来几个月内发布并提交审核。 公共接触风...
近日,移动新零售公司“新石器无人车”宣布完成数亿人民币B轮融资,由中金资本、软银亚洲风险投资公司(SoftBank Ventures Asia)联合领投,老股东云启资本、耀途资本跟投。本轮融资将用于无人车服务网络的规模化扩张,这无疑会加快无人驾驶技术的落地应有。据了解,新石器无人车创建于2018年2月,产品已量产迭代到第三代,场景从封闭园区拓展到了开放道...

史海拾趣

问答坊 | AI 解惑

FPGA巨头赛灵思调整策略做大市场

随着Altera推出65nm工艺的FPGA,全球两大FPGA巨头又开始在65nm节点开始了新一轮的竞争。不过,近日赛灵思公司亚太区市场营销总监郑馨南透露:赛灵思将会有新的举措-加强FPGA在传统的通信、消费领域以及新兴汽车电子、医疗电子等领域的渗透。 与ASI ...…

查看全部问答∨

AVR单片机

AVR单片机C语言库…

查看全部问答∨

说说你为啥是用Linux?

如题,请大家说说自己学习Linux的理由。 我纯粹是工作需要。…

查看全部问答∨

用W77E58做通讯问题?

  大家好我想用W77E58有两组串口通讯口。其中一组我用4800波特率来和另一单片机通讯。一组用9600波特率来和另一设备通讯。这样可以实现吗。我在程序里来做通讯波特率的切换这样做通讯的时候会不会有什么问题?有没有同人这样做过…

查看全部问答∨

FileMapping读取size<=4096的文件后异常!

步骤: 1) FileMapping读取size 4096的文件2 3) FileMapping读取另一个文件3, MapViewOfFile()返回地址中的内容是文件2的. 不知道是不是driver层的问题?…

查看全部问答∨

软硬件在现代生产生活中都应用在哪些方面?请举几种实际应用吧!

软硬件在现代生产生活中都应用在哪些方面?请举几种实际应用吧!…

查看全部问答∨

【低功耗】可编程逻辑阵列减少毛刺的低功耗布线算法

随着可编程逻辑门阵列(FPGA,Field Programmanle Gate Array)应用的不断普及,便携式设备和无线设备的涌现,过去对于FPGA主要关心的速度、单片容量、费用以及可靠性等,现在对于低功耗FPGA的需 求,与速度、容量、费用等到了一样的高度,成为FPG ...…

查看全部问答∨

zigbee开发协议栈怎么学习

想请高手指点下 1)开发zigbee协议栈要掌握到什么程度? 2)z-stack2007中有个GenericAPP应用例子,关于绑定那里不太明白,希望能指点下,在处理函数里面主要 3)要开发一些应用,是不是还要了解开发板硬件方面的东西? …

查看全部问答∨

数组定义到SRAM中

请问各位,如何将数组定义到外扩的SRAM中?定义的程序代码能简单写一下吗?谢谢…

查看全部问答∨
小广播
最新机器人文章
厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关:

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved