应用、算法、芯片,“三位一体”浅析语音识别

2017-10-18 10:44:20来源: 雷锋网 关键字:语音识别

雷锋网(公众号:雷锋网) AI科技评论按:本文作者为辰韬资本黄松延,原文首发于微信公众号:辰韬资本(ID: chentaoziben),雷锋网AI科技评论获其授权转载。


黄松延,浙江大学人工智能博士,前华为高级算法工程师,对深度学习及其应用有深入的研究,阅后若有所感,欢迎通过邮箱syhuang@chentao-capital.com或者微信号Nikola_629与他交流。


人工智能产业链由基础层、技术层与应用层构成,同样,智能语音识别亦由这三层组成。基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化,近年,语音识别准确率取得了不断的提升。


基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化,近年,语音识别准确率取得了不断的提升。2016年10月,微软宣布英语语音识别词错率下降到5.9%,从而能够媲美人类。现阶段,在理想的环境下,多家公司的语音识别系统已经越过了实用的门槛,并在各个领域得到了广泛的应用。


人工智能产业链由基础层、技术层与应用层构成。同样,智能语音识别亦由这三层组成,本文从语音识别的商业化应用出发,并探讨驱动语音识别发展的算法及硬件计算能力,三位一体浅析语音识别现状、发展趋势及仍然面临的难点。


一、应用


智能语音技术是人工智能应用最成熟的技术之一,并拥有交互的自然性,因而,其具有巨大的市场空间。中国语音产业联盟《2015中国智能语音产业发展白皮书》数据显示,2017年全球智能语音产业规模将首次超过百亿美元,达到105亿美元。中国2017年智能语音产业规模也将首次突破百亿元,五年复合增长率超过60%。



图1.来源:wind、华安证券研究所


科技巨头都在打造自己的智能语音生态系统,国外有IBM、微软、Google,国内有百度、科大讯飞等。


IBM、微软、百度等公司在语音识别方面,使用组合模型,不断提升语音识别性能。微软基于6个不同的深度神经网络构成的声学模型以及4个不同的深度神经网络构成的语言模型,取得了超越人类的识别准确率。科大讯飞则基于深度全序列卷积神经网络语音识别框架,取得了实用级的识别性能。云知声、捷通华声、思必驰等智能语音创业公司亦在不断打磨自己的识别引擎,并能够把自己的技术落地到产业中。


在巨头和创新者的推动下,语音识别逐渐在智能家居、智能车载、语音助手、机器人等领域取得迅猛发展。


1、智能家居


在智能家居,尤其是智能音箱市场,亚马逊与Google处于行业统治地位,并各具特色。

亚马逊的Echo已经卖出近千万台,引爆了在线智能音箱市场。相比于传统的音箱,Echo具有远程唤醒播放音乐、联网查询咨询信息、智能控制家电等功能。但是在智能问答方面,Echo表现一般,Google以此为突破口,发布Google Home,从亚马逊手中抢夺23.8%的智能音箱市场份额。2017年9月,亚马逊发布了多款Echo二代产品,相比一代在音质上有明显的提升,且Echo Plus具备更加强大的家居控制功能,能够自动搜索到附件的智能家居设备,并进行控制。


在我国的语控电视、语控空调、语控照明等智能语控家电市场,科大讯飞、云知声、启英泰伦做了深入布局。


科大讯飞联合京东发布叮咚音箱,并于2016年推出讯飞电视助理,打造智能家居领域的入口级应用。云知声提供物联网人工智能技术,通过与格力等公司合作,把自己的语音识别技术集成到终端家电产品中,另外,云知声发布的‘Pandora’语音中控方案,能够大幅缩短产品智能化周期。启英泰伦结合自己强大的硬件(终端智能语音识别芯片CI1006)及算法(深度学习语音识别引擎)优势,提供离线与在线的整套语音识别方案,并在物联网各个领域有广泛的布局。


2、智能车载


随着智能网联的发展,预计未来车联网在车载端的渗透率将超过50%。但是基于安全性等因素考虑,车载端智能与手机端智能有极大的差别,从手机端简单拷贝的方式并不适合车载端使用场景。语音基于其交互的自然性,被认为是未来人与车交互的主要入口路径。


百度借助自己的人工智能生态平台,推出了智能行车助手CoDriver。科大讯飞与奇瑞等汽车制造商合作,推出了飞鱼汽车助理,推进车联网进程。搜狗与四维图新合作推出了飞歌导航。云知声、思必驰在导航、平视显示器等车载应用方面推出了多款智能语控车载产品。出门问问则基于自己的问问魔镜进入到智能车载市场。


在语音识别的商业化落地中,需要内容、算法等各个方面的协同支撑,但是良好的用户体验是商业应用的第一要素,而识别算法是提升用户体验的核心因素。下文将从语音识别的算法发展路径、算法发展现状及前沿算法研究三个方面来探讨语音识别技术。


二、算法


对于语音识别系统而言,第一步要检测是否有语音输入,即,语音激活检测(VAD)。在低功耗设计中,相比于语音识别的其它部分,VAD采用always on的工作机制。当VAD检测到有语音输入之后,VAD便会唤醒后续的识别系统。识别系统总体流程如图2所示,主要包括特征提取、识别建模及模型训练、解码得到结果几个步骤。



图2.语音识别系统


1、VAD(语音激活检测)


用于判断什么时候有语音输入,什么时候是静音状态。语音识别后续的操作都是在VAD截取出来的有效片段上进行,从而能够减小语音识别系统噪声误识别率及系统功耗。在近场环境下,由于语音信号衰减有限,信噪比(SNR)比较高,只需要简单的方式(比如过零率、信号能量)来做激活检测。但是在远场环境中,由于语音信号传输距离比较远,衰减比较严重,因而导致麦克风采集数据的SNR很低,这种情况下,简单的激活检测方法效果很差。使用深度神经网络(DNN)做激活检测是基于深度学习的语音识别系统中常用的方法(在该方法下,语音激活检测即为一个分类问题)。在MIT的智能语音识别芯片中使用了精简版的DNN来做VAD,该方法在噪声比较大的情况下也具有很好的性能。但是更复杂的远场环境中,VAD仍然是未来研究的重点。


2、特征提取


梅尔频率倒谱系数(MFCC)是最为常用的语音特征,梅尔频率是基于人耳听觉特征提取出来的。MFCC主要由预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组、离散余弦变换几部分组成,其中FFT与梅尔滤波器组是MFCC最重要的部分。但是近年研究表明,对于语音识别而言,梅尔滤波器组不一定是最优方案。受限的玻尔兹曼机(RBM)、卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型作为一个直接学习滤波器代替梅尔滤波器组被用于自动学习的语音特征提取中,并取得良好的效果。

目前已经证明,在特征提取方面,CLDNN比对数梅尔滤波器组有明显的性能优势。基于CLDNN的特征提取过程可以总结为:在时间轴上的卷积、pooling、pooled信号进入到CLDNN中三个步骤。


远场语音识别领域,由于存在强噪声、回响等问题,麦克风阵列波束成形仍然是主导方法。


另外,现阶段,基于深度学习的波束成形方法在自动特征提取方面亦取得了众多研究成果。


3、识别建模


语音识别本质上是音频序列到文字序列转化的过程,即在给定语音输入的情况下,找到概率最大的文字序列。基于贝叶斯原理,可以把语音识别问题分解为给定文字序列出现这条语音的条件概率以及出现该条文字序列的先验概率,对条件概率建模所得模型即为声学模型,对出现该条文字序列的先验概率建模所得模型是语言模型。


3.1  声学模型


声学模型是把语音转化为声学表示的输出,即找到给定的语音源于某个声学符号的概率。对于声学符号,最直接的表达方式是词组,但是在训练数据量不充分的情况下,很难得到一个好的模型。词组是由多个音素的连续发音构成,另外,音素不但有清晰的定义而且数量有限。因而,在语音识别中,通常把声学模型转换成了一个语音序列到发音序列(音素)的模型和一个发音序列到输出文字序列的字典。


需要注意的是,由于人类发声器官运动的连续性,以及某些语言中特定的拼读习惯,会导致音素的发音受到前后音素的影响。为了对不同语境的音素加以区分,通常使用能够考虑前后各一个音素的三音子作为建模单元。


另外,在声学模型中,可以把三音子分解为更小的颗粒—状态,通常一个三音子对应3个状态,但是这会引起建模参数的指数增长,常用的解决方案是使用决策树先对这些三音子模型进行聚类,然后使用聚类的结果作为分类目标。


至此,语音识别有了最终的分类目标—状态。最常用的声学建模方式是隐马尔科夫模型(HMM)。在HMM下,状态是隐变量,语音是观测值,状态之间的跳转符合马尔科夫假设。其中,状态转移概率密度多采用几何分布建模,而拟合隐变量到观测值的观测概率的模型常用高斯混合模型(GMM)。基于深度学习的发展,深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型被应用到

[1] [2] [3]

关键字:语音识别

编辑:冀凯 引用地址:http://www.eeworld.com.cn/xfdz/article_2017101874336.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:中兴物联成唯一中标方 中国电信在下一盘NB-IoT的大棋
下一篇:深度:中芯国际详解梁孟松、赵海军双剑合璧

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利
推荐阅读
全部
语音识别

小广播

独家专题更多

东芝在线展会——芯科技智社会创未来
东芝在线展会——芯科技智社会创未来
2017东芝PCIM在线展会
2017东芝PCIM在线展会
TI车载信息娱乐系统的音视频解决方案
TI车载信息娱乐系统的音视频解决方案
汇总了TI汽车信息娱乐系统方案、优质音频解决方案、汽车娱乐系统和仪表盘参考设计相关的文档、视频等资源
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2017 EEWORLD.com.cn, Inc. All rights reserved