谷歌语音识别能力将超过人类,方法是借助神经网络

2014-12-25 17:28:15来源: 彭博社 关键字:语音识别

谷歌语音识别Google Now

    与数字助理交流是一件有趣的事情,它给人的感觉就像固执的孩童。如果你曾经对着Xbox或Siri大喊大叫,你或许已经失去希望。

    但研究人员表示,语音识别和人工智能领域最近取得的突破,很快就能大幅提升这些电子产品的理解力,使之更好地与我们展开沟通。谷歌工程师约翰·沙尔克维克(Johan Schalkwyk)表示,这种全新的设备不仅能听懂我们的意思,还能结合上下文和语调的细微差别理解深层含义。

    沙尔克维克正在谷歌从事一项野心勃勃的研究项目,希望创造一套能够利用该公司海量数据的语音系统。他表示,他们目前正在实验室里测试的一个项目,使得电脑可以听懂并“思考”人们的语言。

    最近在语音识别和机器学习领域的各种发明,将给语音识别带来巨大变化。Siri的一位主要发明人表示,工程师都在狂热地开发语音识别技术,使之具备足够的智能,与用户展开真正的对话。“语音识别的所有领域都已经实现了很大进步。”Siri底层技术开发公司SRI International副总裁威廉·马克(William Mark)说,“这种对话互动目前已经成为前沿技术。”

    蒂姆·图塔尔(Tim Tuttle)等待这一天已经很久了。他1997年获得了麻省理工学院的博士学位,并任职于该校的人工智能实验室。10年来,他先后在硅谷多家公司任职,最终于2010年创办了自己的Except Labs公司。图塔尔的公司去年开始设计一套系统,向移动应用中增加复杂的语音指令。例如,当用户走进超市时,可以通过这项功能获知他要买的扫帚位于哪条走廊。

    “一年前,我们在做基准,我们当时认为这不可能实现。但一切都变了。我们的公司已经对语音加倍下注,主要是因为近期所看到的各种技术进步。”图塔尔说,“与人类水平相当或高于人类水平的语音识别系统将实现商业化。”

    但首先,还是先来回顾一下历史:两年半以前,谷歌和多伦多大学的研究人员发表了一篇颇有影响力的论文,内容是用“深度神经网络”来指导计算机语音技术。几个月后,微软与IBM也合作发表了另外一篇论文,被谷歌工程师杰夫·迪恩(Jeff Dean)称作“语音研究领域20年来的最大进步”。

    这些研究使得一项数十年前诞生的数字神经网络发明再度复活。这项技术1980年代就在大数据预测和分析领域实现了不俗的表现,但当时却受到计算机速度的制约。神经网络直到最近才变成可行的方案,这主要得益于计算机处理速度的加快,以及新型软件模式的发展。

    谷歌实验室也开展了类似的研究。6个月前,该团队从这种名为“前馈神经网络”的古老方法入手,推动了神经网络技术的复活。这项技术使得系统可以储存更多信息,并处理更长、更复杂的序列。谷歌这项突破源自对底层代码的简化,可以在同一套系统中保留更多观点和观念,从而让用户更容易问出复杂的问题,获得有意义的答案。“系统复杂性可能对长期发展构成伤害。”沙尔克维克说。

    谷歌的系统目前使用上下文、物理位置和其他因素进行假设,以此判断语音的真正含义——整个过程与人类大脑的思维模式相仿。谷歌的最新网络技术可以提升这一过程的效率,从而处理比以往更大的数据量,回答更复杂的问题。

    为了解释语音识别技术在未来的工作方式,沙尔克维克提到了谷歌山景城总部几公里之外的一间高级越南餐厅。这家名为Xanh Restaurant的餐厅对典型的语音识别构成了挑战,因为Xanh这个名字(发音为“扎恩”)很难识别。“如果我能找到它在地图上的位置,然后说,‘这是一家餐馆,它位于加州。’那么范围就会立刻缩小。”沙尔克维克说,“借助语义技术,我们便可大幅改善质量。”

    这听起来似乎很简单,但对电脑来说,听到一个单词,然后把它放到句子上下文中去辨识,再与地理信息相结合,是十分困难而且耗费时间的。如今,谷歌语音搜索已经可以正确识别餐馆。沙尔克维克表示,谷歌今后将可以处理其他一些同样野心勃勃的问题。

    沙尔克维克表示,在谷歌内部,语音识别技术已经实现了空前的进步。虽然谷歌的重大进步还要再等一两年才能应用到用户的手机中,但这个项目已经催生了很多可以应用于谷歌其他项目的技术。“开发登月项目的同时,还会同时设计出另外一百项有用的技术。”沙尔克维克说。

    沙尔克维克表示,谷歌语音识别技术3年前只能认出3/4的口语单词。但得益于创新速度的加快,谷歌手机应用现在可以正确识别12/13的单词。据图塔尔介绍,要不了多久,“我们就将生活在一个没有键盘的世界里。”

关键字:语音识别

编辑:鲁迪 引用地址:http://www.eeworld.com.cn/afdz/2014/1225/article_8007.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:探索灾难现场好帮手 可远程控制的蛇型机器人
下一篇:“云速前进”那些因云而变速的产业

论坛活动 E手掌握
关注eeworld公众号
快捷获取更多信息
芯片资讯 锐利解读
微信扫一扫加关注
芯片资讯 锐利解读
推荐阅读
全部
语音识别

小广播

独家专题更多

TI车载信息娱乐系统的音视频解决方案
TI车载信息娱乐系统的音视频解决方案
汇总了TI汽车信息娱乐系统方案、优质音频解决方案、汽车娱乐系统和仪表盘参考设计相关的文档、视频等资源
迎接创新的黄金时代 无创想,不奇迹
迎接创新的黄金时代 无创想,不奇迹
​TE工程师帮助将不可能变成可能,通过技术突破,使世界更加清洁、安全和美好。
TTI携TE传感器样片与你相见,一起传感未来
TTI携TE传感器样片与你相见,一起传感未来
TTI携TE传感器样片与你相见,一起传感未来

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 视频监控 智能卡 防盗报警 智能管理 处理器 传感器 其他技术 综合资讯 安防论坛

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2017 EEWORLD.com.cn, Inc. All rights reserved