人工智能系统可对多场景声音进行识别

2016-06-20 20:54:14编辑:鲁迪 关键字:人工智能系统  场景声音  识别
    人工智能已经突破了一项声音障碍。麻省理工学院(MIT)的研究人员开发了一款人工智能系统,可以“观看”无声的视频并且生成一段声音,效果十分逼真,以至于多数观众无法分辨出这些声音是否是计算机生成的。

  MIT计算机科学和人工智能实验室(MIT Computer Science and Artificial Intelligence Laboratory)称,其“深度学习算法”是头一个通过“声音图灵测试”的,生成的声音能够以假乱真。

  这款视觉指示声音系统(Visually Indicated Sounds,简称Vis)受到训练,能够对棍子击打、刮擦或者捅一系列物体(从树叶、水到土壤和钢铁)时发出的声音进行分析。

  研究人员称,Vis的本领可以延伸至很多其他场景。例如,未来的版本可以为电影和电视生成比传统方法(比如在铝箔上撒盐以模拟雨声)更逼真的声音效果。

  该项目的负责人安德鲁·欧文斯(Andrew Owens)称,更重要的应用或许是帮助机器人理解物体的物理属性、更好地与它们所在的环境互动。该项目将于本月晚些时候在拉斯维加斯举行的计算机视觉与模式识别大会(CVPR)上展出。

  “机器人可以看着人行道、本能地知道水泥地是硬的而草地是软的,因此知道如果它踩上两种地面会发生什么,”他说,“能够预测声音,是预测与世界进行物理互动的后果的重要第一步。”

  该MIT团队“训练”Vis的方法是,向其输入包含4.6万种声音的1000段视频,这些声音是鼓槌在不同坚实度的物体上敲打或划过而产生的。之后,帮计算机在大量数据中找到模式的“深度学习”算法对这些声音进行解构。

  为了从无声视频片断中预测一种新声音,Vis会查看最可能与每个视频画面相关的音频属性,并把这些音频串在一起编辑成连贯的声音。Vis可以模拟快节奏和舒缓的微妙声音,无论是断断续续拍打岩石的声音,还是穿过常春藤时发出的细小沙沙声。它既可以模拟击打垫子发出的低沉砰砰声,又可以模拟敲击栏杆时发出的刺耳声音。

  为了测试这些声音在人耳听起来的逼真性,研究人员对400名观众进行了调查。他们观看了两遍视频,其中一遍听的是真实声音,另一遍听的是Vis的模拟版。他们要说出哪一次是真实的声音。

  如果Vis生成的声音与真实的声音无法区分,Vis版被选择的概率应为50%。结果调查得出的概率为40%,这是一个相当不错的分数。

  当声音清晰、尖锐时——比如敲木头或金属的声音——该系统的表现最差,在生成由树叶或泥土产生的较轻柔、持续时间较长的声音时,Vis表现最好。有时,如果棍子刚好停在目标物之前,它还会“幻想出”假的敲击声。

  欧文斯的梦想是在没有明确视觉线索的情况下让Vis模拟声音。“从微风轻抚、到笔记本电脑的嗡嗡作响,任何时候环境中都存在着许多与我们正盯着看的东西无关的声音,”他说。

关键字:人工智能系统  场景声音  识别

来源: 互联网 引用地址:http://www.eeworld.com.cn/afdz/article_201606209640.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:交通部《方案》发布全面建设智能交通刻不容缓
下一篇:智能看门狗:Domgy宠物机器人可用于家居防盗

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

业界最强大人工智能系统发布,Vicor为AI注入创新动力

在GTC 2018上,Vicor团队见证了英伟达 DGX-2的发布,它是迄今为止最强大的 AI 系统。DGX-2使用16个SXM3 GPU卡提供每秒2千万亿次浮点运算的计算性能,与前一代 DGX-1相比,可提供10倍的深度学习性能,而功耗仅为10kW。在展厅内,DGX-2与SXM3卡一同展出,您可以在上面看到最新的Vicor合封电源(PoP)解决方案以及我们的 PI3526 ZVS 降压稳压器。就在不久前的3月6日,我们推出了600A稳定电流输出的PoP解决方案,其可将48V直接转换为XPU内核电压。 NVIDIA DGX-2:业界最强大的 AI 系统 合封电源解决方案消除最后一英寸供电问题合封电源
发表于 2018-04-12 21:12:53
业界最强大人工智能系统发布,Vicor为AI注入创新动力

业界最强大人工智能系统在 GTC 2018 上发布

技术。NBM 采用 ZVS 和 ZCS 拓扑在 2MHz 下开关,可为动态负载提供低输出阻抗和 MHz 级的快速瞬态响应。刚过去的GTC 2018,对所有人来说都是一场视觉盛宴,我们为我们的产品能成为 DGX-2 的一部分而感到振奋,Vicor将持续不断地为AI 应用注入创新动力。    以上是关于电源管理中-业界最强大人工智能系统在 GTC 2018 上发布的相关介绍,如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。
发表于 2018-04-10 17:03:21
业界最强大人工智能系统在 GTC 2018 上发布

业界最强大人工智能系统在 GTC 2018 上发布 Vicor为AI注入创新

电容器,而且还整合了热插拔及涌流限制技术。NBM 采用 ZVS 和 ZCS 拓扑在 2MHz 下开关,可为动态负载提供低输出阻抗和 MHz 级的快速瞬态响应。刚过去的GTC 2018,对所有人来说都是一场视觉盛宴,我们为我们的产品能成为 DGX-2 的一部分而感到振奋,Vicor将持续不断地为AI 应用注入创新动力。关于 Vicor 公司Vicor 公司总部位于马萨诸塞州安多弗,始终致力于设计、制造和销售创新的高性能模块化电源组件,产品从砖型解决方案到以半导体为中心的解决方案,应有尽有,可帮助客户高效转换和管理从电源到负载点的电源。电源组件设计方法Vicor 的电源组件设计方法不仅可帮助电源系统设计人员获得模块化电源组件设计的所有优势
发表于 2018-04-09 17:24:06
业界最强大人工智能系统在 GTC 2018 上发布 Vicor为AI注入创新

业界最强大人工智能系统在 GTC 2018 上发布

日前,在 GTC 2018 上,Vicor 团队见证了 英伟达 DGX-2 的发布,它是迄今为止最强大的 AI 系统。DGX-2 使用 16 个 SXM3 GPU 卡提供每秒 2 千万亿次浮点运算的计算性能,与前一代 DGX-1 相比,可提供 10 倍的深度学习性能,而功耗仅为 10kW。在展厅内,DGX-2 与 SXM3 卡一同展出,您可以在上面看到最新的Vicor 合封电源 (PoP) 解决方案以及我们的 PI3526 ZVS 降压稳压器。就在不久前的3 月 6 日,我们推出了 600A 稳定电流输出的 PoP 解决方案,其可将 48V 直接转换为 XPU 内核电压。 NVIDIA DGX-2:业界最强大的 AI
发表于 2018-04-09 15:51:52
业界最强大人工智能系统在 GTC 2018 上发布

Vicor为业界最强大人工智能系统注入动力

日前,在 GTC 2018 上,Vicor 团队见证了 英伟达 DGX-2 的发布,它是迄今为止最强大的 AI 系统。DGX-2 使用 16 个 SXM3 GPU 卡提供每秒 2 千万亿次浮点运算的计算性能,与前一代 DGX-1 相比,可提供 10 倍的深度学习性能,而功耗仅为 10kW。在展厅内,DGX-2 与 SXM3 卡一同展出,您可以在上面看到最新的Vicor 合封电源 (PoP) 解决方案以及我们的 PI3526 ZVS 降压稳压器。就在不久前的3 月 6 日,我们推出了 600A 稳定电流输出的 PoP 解决方案,其可将 48V 直接转换为 XPU 内核电压。NVIDIA DGX-2:业界最强大的 AI 系统合封
发表于 2018-04-09 11:25:27
Vicor为业界最强大人工智能系统注入动力

日本警方将搭配人工智能系统,降低犯罪事件发生

日本神奈川县警方将利用基于数据分析和深度学习的人工智能系统,预测犯罪事件和交通事故并采取相应对策。这是日本警方首次开发预测犯罪事件和交通事故的人工智能系统。 据报道,神奈川县将在2018年度(4月到次年3月)预算案中列入4800万日元(约合277万元人民币)用于开发预测犯罪事件和交通事故的人工智能系统。系统将对神奈川县过去约110万起犯罪事件和约80万起交通事故进行分析,对各种案件的发生时间、当事人性别和年龄等数据以及地形、气象条件等信息进行深度学习。 为测试系统预测的准确性,神奈川县警方将根据截至2015年的数据进行预测,并和2016年的实际数据进行对照验证。 神奈川县警方的目标是在2020年召开
发表于 2018-02-12 18:56:53

小广播

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 视频监控 智能卡 防盗报警 智能管理 处理器 传感器 其他技术 综合资讯 安防论坛

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved