datasheet

无声也能语音识别?微软这个黑科技有点厉害

2019-02-12来源: eefocus 关键字:AI    无声语音识别   微软   唇语识别

小时候看特务电影时,特工们往往有一项必备的技能,就是隔着几百米远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆,导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂,算什么AI好汉。

 

不过最近一项专利申请表明,微软正在向特工学习,推出了无声语音识别技术。当AI也能像特工一样,无声之中辩人言,我们的世界究竟会有什么不同?

 

除去唇语识别,AI还有什么方式悄悄听懂你的话?

说起无声语音识别,可能很多人第一反应就是复制人类的方式,利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久,但是识别的准确率一直不算高。DeepMind曾在2016年做过测试,经过1万小时的新闻视频训练,AI唇语准确率达到了46.8%。国内有一家企业曾经提供过相关数据:在对中文新闻视频的识别中,准确率达到了70%。而搜狗所推出的驾驶场景下的唇语识别,因为涉及到的词汇量很少,准确率能够达到90%。

 

可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好,对于英文这种连音很多的语言来说,唇语识别要跨越的门槛确实不小。

 

另一方面来看,唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远,如果这种技术真的发展成熟,意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天,哪家企业公开研究这项技术,只怕是觉得自己家的公关部门过得太清闲。

 

因此包括微软在内的产业和学界,都在寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。

 

微软所提交的专利,就是典型的“气宗”——在终端上添加传感器,通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风,置于用户嘴边,用户在说话时形成的气流会在设备中形成反射,经过训练,可以将这些气流反射的信号和文字一一对应。

 

而“电宗”则更加神奇,我们知道人在说话时需要调动整个下半张脸的肌肉,不同的文字发音所调动肌肉的方式也并不相同。通过对面部EMG(肌电)信号的采集,来学习人类说话时面部EMG信号特征,并通过神经网络的训练将EMG信号和文字对应起来。

 

可以看出这两种无声语音识别都有一个共同的特点,那就是自主性和私密性。不管是EMG信号采集还是气流采集,都需要在讲话者身上佩戴好设备,而不是像图像技术一样,能够在远程且讲话者不知情的情况下进行采集分析。

 

无声语音识别变成真·气功?

不论是气宗还是电宗,这些无声语音识别技术都面临着同样的问题——既然要用户把话说出来才能进行识别,那为什么不直接应用语音识别来进行文字转换和翻译,非要弄一些和“气功”一样没有切实应用场景的花招?

 

其实无声语音识别的应用,可能不像大家想象的那样广泛,它既不能以最高效的方式帮助听障人士,也不允许被应用于监听等等工作。但在一些关键场合下,无声语音识别却可以发挥出奇用。

 

我们可以一起开动脑筋,想想在哪里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景:灾害现场、舱外探索、水下作业……

 

在这类场所中,人们或许为了躲避被污染的空气、或许为了呼吸氧气,都会穿上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没办法用语音交互去控制其他设备了。同时环境情况(例如氧气不够充足)往往不允许人们以正常的声音说话,加上防护服的封闭状况会引起声音的回响,以往的有声语音识别在这种情况下很难发挥作用。

 

这时可以被安置在防护服内部的无声语音识别就显得很有价值,讲话者只需要做出口型就能向外界传递信息。

 

除此之外还有嘈杂的马路、工厂车间、机场……

 

在这些场所中,想要让对方听清自己的声音,往往需要扯着嗓子吼。想让语音识别准确拾音,更是难上加难。这时利用无声语音识别就会轻松很多,不仅可以准确表达信息,也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。

 

实际上目前在欧洲一些型号的战斗机中,就因为机舱内噪音巨大、飞行员之间无法沟通,已经应用上了EMG信号无声语音识别技术。

 

当然,目前相比语音识别技术、甚至相比唇语语音识别,无声语音识别技术的发展阶段还很初级,应用效率也不高。

 

实际上无声语音识别是一项典型的“美好而无用”的AI技术,它既完美体现了一系列技术的排列组合,例如EMG信号无声语音识别所体现出的AI与神经学的结合;又在应用上极大程度的受限,即使在一些声音难以传播的场景下,也要考虑计算条件、识别语音后信息再传递的媒介,更不用提复杂的数据收集工作了。

 

但我们有理由相信,在未来AI技术越来越普及化、应用成本越来越低时,总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天,战斗机的控制也要应用上语音交互呢?


关键字:AI    无声语音识别   微软   唇语识别

编辑:什么鱼 引用地址:http://www.eeworld.com.cn/qrs/2019/ic-news021252879.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:英特尔在PC市场“老大哥”地位不保,AMD如何逆袭英特尔?
下一篇:最后一页

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

特朗普急眼了!签署总统令捍卫美国AI霸主,立下六大目标

北京时间今日早间(美国时间2月11日),美国总统特朗普签署行政命令《美国人工智能倡议》(American AI Initiative)。这是一项事关美国人工智能发展的重要国家级战略,从投资、开放政府数据资源能力、相关标准建设、就业危机应对以及制定相关国际标准五大方面制定了美国未来一段时间内的人工智能发展方向。并对智慧医疗、智慧城市等领域提出了重点帮扶,同时明确表示了对于来自敌对国家对于关键人工智能技术的跨国收购的排斥。随着中国近些年来人工智能行业的崛起,以《新一代人工智能发展规划》《促进新一代人工智能产业发展三年行动计划》为代表的政策落地,BAT为代表的互联网巨头加速AI研发,以商汤、云从为代表的AI独角兽在国际崭露头角。美国已经
发表于 2019-02-12
特朗普急眼了!签署总统令捍卫美国AI霸主,立下六大目标

AI阅读病历,推荐临床诊断,准确度超过年轻医生!

今日最新上线的《自然》子刊《Nature Medicine》上,发表了一项激动人心的成果:利用机器学习和自然语言处理等人工智能(AI)技术,广州市妇女儿童医疗中心的夏慧敏教授和加州大学圣地亚哥分校(UCSD)张康教授领衔的一支研究团队,合作带来一款全新的AI诊断工具。这项工具和人类医生一样,当填写完患者口述和医生体查文本型病历之后,工具可直接阅读医疗病历,自动分析患者病情,智能给出推荐诊断。这是该团队在《细胞》杂志封面发表有关AI图像诊断的论文后,不到一年时间里,在AI技术实施应用于医疗方面取得的另一个重要里程碑。它标志AI模拟人类医生进行疾病诊断时代的到来。  近年来,AI在基于医学图像的诊断上一次次超越人类。在放射学、病理学
发表于 2019-02-12
AI阅读病历,推荐临床诊断,准确度超过年轻医生!

AWE2019展会看点 AI加持智能家居领域

2019年3月14日-17日,2019中国家电及消费电子博览会(Appliance & Electronics World Expo,简称AWE2019)将在上海新国际博览中心举行。AWE2019将继续展示人工智能、移动互联网、物联网、云计算、大数据等前沿技术与家电、消费电子行业深度融合的最新成果。展会期间,智能家电、智能家居、智慧出行、智慧娱乐将是热门看点,我们可在展会上了解智能家居领域的科技新理念,洞察产业发展趋势。  AWE2019的主题是“AI上·智慧生活”。当前,智能制造已经成为制造业发展的必然趋势,智慧生活解决方案的构成模式也正在迅速发展变化。人工智能作为智能制造的核心技术,近年呈现出井喷式发展,家电、移动设备
发表于 2019-02-11
AWE2019展会看点 AI加持智能家居领域

AI科学家担忧政府人工智能的使用

集微网消息,据彭博社报道,加拿大计算机科学家约舒亚•本吉奥(yoshu Bengio)对中国将人工智能用于监控和政府监管感到担忧。他曾帮助开创了支撑当前人工智能热潮的技术。总部位于蒙特利尔的人工智能软件公司Element AI的联合创始人本吉奥(Bengio)表示他担心自己帮助开发的技术被用于控制人们的行为和影响他们的思想。“这是《1984》一书中所言独裁者的情景,”他在一次采访中说。“我认为这变得越来越可怕。”蒙特利尔大学(University of Montreal)教授本吉奥(Bengio)与扬·勒昆(Yann LeCun)和杰夫·辛顿(Geoff Hinton)被认为是深度学习的三位“教父”之一。它是一种利用神经网络
发表于 2019-02-11

应用材料余定陆言抢食AI商机需要材料创新

人工智能(AI)大行其道,但若要执行相关算法或模型,需要大量运算能力,因此对半导体产业而言,AI固然蕴含庞大商机,但同时也带来许多挑战。 美商应用材料(应材)认为,为了响应这些AI带来的挑战,在产业生态面,半导体产业的风貌将从上下游关系分明的直线链条转变成互相交错的产业网络;在技术面,则必须在运算架构、设计结构、材料、 微缩方法与先进封装这五大领域提出新的对策,而材料工程将在这中间扮演最核心的角色。美商应用材料副总裁暨台湾区总裁余定陆认为,科技业正面临有史以来最大的AI大战。 在计算机运算处理器部分,人工智能需要大量、快速的内存存取及平行运算,这时绘图处理器(GPU)及张量处理器(TPU)会比传统运算
发表于 2019-02-11
应用材料余定陆言抢食AI商机需要材料创新

Siri团队主管被撤职,苹果AI战略转变!

的Siri负责人,但更换的时间表尚不清楚。Siri曾经是苹果前CEO史蒂夫·乔布斯的焦点,他与Forstall一起设想了一个真正的会话AI,不仅限于网络搜索和设备控制,而是与人类互动密切相关的东西。随着乔布斯的过世和福斯特尔的下台,这一愿景逐渐减弱。
发表于 2019-02-11
Siri团队主管被撤职,苹果AI战略转变!

小广播

何立民专栏

单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved