datasheet

AVNET安富利

文章数:267 被阅读:132512

账号入驻

芝麻开门!语音识别背后的隐秘宝藏!

2016-12-01
    阅读数:



“芝麻开门!”阿里巴巴对着宝藏石门喊出的这个魔咒,可能算是人们对于语音识别技术最古早的科幻了。这里也凝聚了人类的一个理想:通过语言去操控物理世界,和“机器”自然地交流。目前种种迹象表明,通向这一理想的进程正在加速。


语音识别的过程,首先要对语音进行采样和处理,并从语音信号中提取一系列的特征参数,在此基础上通过特殊的算法让语音识别系统进行“学习”和“训练”,进而建立一个参考模式库,之后就可以将待测的语音特征参数信息与参考模式库中的模板进行比较,根据匹配度做出判断和识别。语音识别的过程,首先要对语音进行采样和处理,并从语音信号中提取一系列的特征参数,在此基础上通过特殊的算法让语音识别系统进行“学习”和“训练”,进而建立一个参考模式库,之后就可以将待测的语音特征参数信息与参考模式库中的模板进行比较,根据匹配度做出判断和识别。


我们接触比较早的语音识别系统,多是嵌入式系统,这种系统由处理器——有时需要DSP——对采集到的语音进行降噪等预处理,再经过特定的软件算法与存于本地的语音参考模式库进行比对,根据结果进行反馈。可交互的智能玩具就是其一个典型的应用。但是受制于软硬件资源的限制,嵌入式语音识别系统很难建立大规模模式库,很难进行复杂的语义的识别,所谓的人机交互仅限于固定的一些模式,所以其应用大多也只是在“科技玩具”的范畴内转圈圈。


而云计算的兴起彻底改变了语音识别的游戏规则。将语音传送上云端,利用计算能力和资源近乎“无穷大”的“云”,我们可以建立起完备的语言库,进行更复杂的语法、语义分析,真正地理解语言所传达的意思。深度学习等人工智能技术的发展,也让“云端”在与用户的语音交互中变得日益聪明和智能,交互的过程也越来越自然和“平等”。


众多互联网巨头在云端语音识别方面下足了筹码。苹果的Siri首先让人们意识到云端语音识别有可能又一次引发人机交互方式的变革,当语音成为互联网的又一个关键入口之后,它将创造出巨大的商业机会。之后云因识别领域开启了“买买买”的模式,各家巨头通过一系列的并购,扫货全球语音领域的技术公司,逐步建立起各自的语音识别引擎——谷歌的Google Now、亚马逊的Alexa、微软的小娜(Cortana),在市场上相互竞逐。国内公司以科大讯飞和百度为领头羊,加之思必驰、云知声、出门问问等新贵,也渐次加入了赛场。尽管与本地的嵌入式系统相比,云端语音识别系统会存在响应延时、受网络条件限制等问题,但这些沟壑终究会被技术的进步一一抹平。


在语音识别产业的这一轮增长中,一个有趣的现象是,这些掌握核心技术的公司慢慢都在不同程度上开放自己的语音识别引擎,向平台化发展,通过吸引更多的开发者使用云端语音识别引擎,营造更为广阔的生态系统,开发出更多的应用。就连被认为最喜欢“封闭”的苹果,也在WWDC2016大会做出了向第三方开放Siri的姿态。


在生态系统的构建过程中,这些技术公司也在利用自己的资源为行业用户提供可参考的范例。比如亚马逊推出的智能音箱Echo,基于Alexa引擎提供在线音乐语音点播服务,也可作为家电控制的语音控制中枢,还可以与亚马逊自身的在线商城接驳,为用户提供语音购物的体验。国内的科大讯飞推出了一款“讯飞听见”智能录音笔,连接云端的语音机器识别平台,提供“语音转文字”的服务。相信未来会有更多细分市场的基于语音识别的应用会被发掘出来。



图1,亚马逊推出的Echo智能音箱,被认为是一个成功的语音识别应用单品



图2,科大讯飞推出的智能录音笔,可以帮助用户对接云端的机器语音转文字服务


“在语音识别技术背后究竟隐匿着多少宝藏?”真的是无法在今天回答的一个问题。“芝麻开门”刚刚被吟出,神秘的石门才刚刚开启。



请点击左下方“阅读原文”,访问安富利微网站,了解更多原创内容。

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: TI培训

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved