datasheet

无声也能语音识别?微软这个黑科技有点厉害

2019-02-12来源: eefocus关键字:AI  无声语音识别  微软  唇语识别

小时候看特务电影时,特工们往往有一项必备的技能,就是隔着几百米远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆,导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂,算什么AI好汉。

 

不过最近一项专利申请表明,微软正在向特工学习,推出了无声语音识别技术。当AI也能像特工一样,无声之中辩人言,我们的世界究竟会有什么不同?

 

除去唇语识别,AI还有什么方式悄悄听懂你的话?

说起无声语音识别,可能很多人第一反应就是复制人类的方式,利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久,但是识别的准确率一直不算高。DeepMind曾在2016年做过测试,经过1万小时的新闻视频训练,AI唇语准确率达到了46.8%。国内有一家企业曾经提供过相关数据:在对中文新闻视频的识别中,准确率达到了70%。而搜狗所推出的驾驶场景下的唇语识别,因为涉及到的词汇量很少,准确率能够达到90%。

 

可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好,对于英文这种连音很多的语言来说,唇语识别要跨越的门槛确实不小。

 

另一方面来看,唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远,如果这种技术真的发展成熟,意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天,哪家企业公开研究这项技术,只怕是觉得自己家的公关部门过得太清闲。

 

因此包括微软在内的产业和学界,都在寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。

 

微软所提交的专利,就是典型的“气宗”——在终端上添加传感器,通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风,置于用户嘴边,用户在说话时形成的气流会在设备中形成反射,经过训练,可以将这些气流反射的信号和文字一一对应。

 

而“电宗”则更加神奇,我们知道人在说话时需要调动整个下半张脸的肌肉,不同的文字发音所调动肌肉的方式也并不相同。通过对面部EMG(肌电)信号的采集,来学习人类说话时面部EMG信号特征,并通过神经网络的训练将EMG信号和文字对应起来。

 

可以看出这两种无声语音识别都有一个共同的特点,那就是自主性和私密性。不管是EMG信号采集还是气流采集,都需要在讲话者身上佩戴好设备,而不是像图像技术一样,能够在远程且讲话者不知情的情况下进行采集分析。

 

无声语音识别变成真·气功?

不论是气宗还是电宗,这些无声语音识别技术都面临着同样的问题——既然要用户把话说出来才能进行识别,那为什么不直接应用语音识别来进行文字转换和翻译,非要弄一些和“气功”一样没有切实应用场景的花招?

 

其实无声语音识别的应用,可能不像大家想象的那样广泛,它既不能以最高效的方式帮助听障人士,也不允许被应用于监听等等工作。但在一些关键场合下,无声语音识别却可以发挥出奇用。

 

我们可以一起开动脑筋,想想在哪里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景:灾害现场、舱外探索、水下作业……

 

在这类场所中,人们或许为了躲避被污染的空气、或许为了呼吸氧气,都会穿上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没办法用语音交互去控制其他设备了。同时环境情况(例如氧气不够充足)往往不允许人们以正常的声音说话,加上防护服的封闭状况会引起声音的回响,以往的有声语音识别在这种情况下很难发挥作用。

 

这时可以被安置在防护服内部的无声语音识别就显得很有价值,讲话者只需要做出口型就能向外界传递信息。

 

除此之外还有嘈杂的马路、工厂车间、机场……

 

在这些场所中,想要让对方听清自己的声音,往往需要扯着嗓子吼。想让语音识别准确拾音,更是难上加难。这时利用无声语音识别就会轻松很多,不仅可以准确表达信息,也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。

 

实际上目前在欧洲一些型号的战斗机中,就因为机舱内噪音巨大、飞行员之间无法沟通,已经应用上了EMG信号无声语音识别技术。

 

当然,目前相比语音识别技术、甚至相比唇语语音识别,无声语音识别技术的发展阶段还很初级,应用效率也不高。

 

实际上无声语音识别是一项典型的“美好而无用”的AI技术,它既完美体现了一系列技术的排列组合,例如EMG信号无声语音识别所体现出的AI与神经学的结合;又在应用上极大程度的受限,即使在一些声音难以传播的场景下,也要考虑计算条件、识别语音后信息再传递的媒介,更不用提复杂的数据收集工作了。

 

但我们有理由相信,在未来AI技术越来越普及化、应用成本越来越低时,总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天,战斗机的控制也要应用上语音交互呢?


关键字:AI  无声语音识别  微软  唇语识别

编辑:什么鱼 引用地址:http://www.eeworld.com.cn/qrs/2019/ic-news021252879.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:英特尔在PC市场“老大哥”地位不保,AMD如何逆袭英特尔?
下一篇:8K电视市场遇阻,三星该如何寻求出路?

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

Xnor发布AI平台的AI2Go

Xnor.ai今天发布了AI2Go,这是一个为开发人员和制造商提供的平台,可以为设备上的人工智能优化预先构建的AI模型。AI2Go是为相机、无人机和传感器等设备中最先进的边缘计算而设计的。该平台提供了数百款专门为智能家居、安全、汽车、娱乐和监控设备设计的机型。该服务的构建是为了消除在尝试为边缘用例(如延迟、功耗或有限的可用内存)制作人工智能时可能出现的问题。只需几次单击和几行代码就可以创建模型,并调整设置来管理内存使用等问题。模型还为各种用例定制,并注入了推理引擎。Xnor首席执行官Ali Farhadi在接受VentureBeat电话采访时表示:“有了zero版本,人们可以指定这些约束条件,然后获得一个模型并下载下来。所有这些
发表于 2019-05-17

广达林百里:AI路很广 也很崎岖

广达董事长林百里表示,现在全球AI战争打得非常大,包括美国、法国、英国、德国等,每个国家都有他的AI产业计划,但关键是AI的应用,这是很大的题目,换言之,AI的路很宽广,但是也很崎岖。       林百里16日应邀出席台湾计算云启动年会,并以「AI产业革命的新竞赛:赛局、冲击、转型」为题,进行专题演讲。       林百里说,广达是做硬件的,所以AI这场仗不是广达来打的,不过广达对这场AI仗要怎么打,也是有点观察心得。       林百里指出,其实AI已经有数十年的历史了,这中间也历经了2次衰退,有人说,这是AI
发表于 2019-05-17

NVIDIA和伦敦国王学院携手打造AI 平台

英伟达(NVIDIA) 与伦敦国王学院携手为英国 NHS 医院打造首个 AI 平台为增进效率与资料隐私,NVIDIA DGX-2 AI系统为当地医院 AI 医疗影像的创建、导入与部署提供联合学习基础设施。        英伟达(NVIDIA)人工智能(AI)平台布局医疗领域又有新进展,15日宣布与伦敦国王学院 (King’s College London) 携手打造AI 平台,用以简化与加速复杂放射科医疗流程,此应用计划使英国 NHS (National Health Service)体系专科医师,能通过训练计算机自动执行放射科影像作业中最耗时的判读程序。   
发表于 2019-05-16

IBM合作大众等公司 混合云计算和AI技术完成数字化转型

据外媒报道,当地时间5月14日,IBM公司宣布与欧洲汽车行业三大公司 – 德国大众(Volkswagen)公司、德国Moovster公司以及荷兰Vinturas公司合作,混合云计算和人工智能(AI)技术重新定义汽车行业的未来。2017年9月,IBM对全球汽车行业高管进行了一项调查,结果显示,73%的受访者认为,数字技术将重新定义人与车的关系,因此未来的移动出行服务将需要与消费者合作创造。IBM正致力于向汽车公司推出混合云计算和AI技术的解决方案,其中包括物联网(IoT)和区块链技术,以帮助完成数字化转型。IBM将与德国大众萨克森公司(Volkswagen Sachsen)合作,实施SAP的S/4HANA资源规划软件,以简化大众汽车
发表于 2019-05-15

AI、物联网时代,RISC-V挑战巨头ARM和英特尔

和ARM架构占据了主流市场。其中,X86主宰了PC、服务器等高性能高功耗领域,而ARM专注于手机、物联网等低功耗低成本领域,其他架构要挑战前两者几乎不可能。“对于CPU芯片这类产业而言,不光是技术问题,很多是商业问题”。方之熙告诉记者,一旦当某种应用的需求有一定市场规模以后,会形成一种运转平台。当这一平台上面的软件形成了一定的生态系统以后,其他玩家很难进入。即使是PC时代的霸主英特尔,在手机市场也是屡战屡败。“ARM当时做了手机以后,除了苹果公司之外,一般都是用谷歌的安卓。安卓和ARM结合在一起之后,英特尔再要打进去就很难了。其实英特尔当时手机芯片不比高通差,但是就是晚了就很难进去了。”在AI、物联网新时代,近年备受关注的开源指令集
发表于 2019-05-15
AI、物联网时代,RISC-V挑战巨头ARM和英特尔

瑞萨电子计划更领先一步,对人工智能将带来哪些影响?

人工智能毫无疑问是当下最热门的领域之一。特别是在自动驾驶、物联网、智慧城市等新兴应用领域,人工智能已成为其必不可少的部分。从发展方向来看,人工智能正在从云端转移到边缘端,并逐渐演变成一种趋势,即所谓的边缘AI。 人工智能产业主要由云端,边缘端和基础设施三个要素组成,通过网络进行连接,构成统一的整体。目前的发展方向是在边缘对数据进行处理,以此提升响应速度及降低功耗,也就是将算力下放至边缘,但显然这并不是一件容易的事情!  边缘人工智能向前更进一步“人们对于物联网及人工智能还存在一定的误区,实际上并不是所有的场景都需要连接到云端。”瑞萨电子中国产业解决方案中心高级总监徐征认为:“对于应用场景
发表于 2019-05-14
瑞萨电子计划更领先一步,对人工智能将带来哪些影响?

小广播

何立民专栏

单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2019 EEWORLD.com.cn, Inc. All rights reserved