让遥控器更智能

2018-07-11 17:32:01编辑:muyan 关键字:蓝牙低功耗  语音命令

最初,电视、机顶盒和空调等电器仅需少量控制功能。在大多数情况下,开/关按钮、几个选择按钮和两组增加/减少控制足以完全控制您的设备。

 

但随着设备支持的功能增加,用户使用的命令和配置选项也随之增加。然而,用户仍希望只用一个遥控器来管理所有功能。为了解决这个问题,工程师们开始整合更复杂的用户界面(UI)。分层菜单出现在电视屏幕上,而越来越多的按钮被填充到遥控器中,以便用户调用和浏览菜单。

 

今天的重要趋势是让设备更智能。智能设备可以连接到其他设备和互联网,来提供更多功能和服务。使用菜单浏览,并用遥控器上的小按钮键输入一大字符串是不切实际的,也不是个愉快的体验。

 

在本文中,我们将讨论如何使用语音命令来提供更好的用户体验。我们特别研究了使用Dialog基于DA14585的高级语音遥控参考设计,通过蓝牙低功耗BLE)实现语音命令。

 

1较大的 QWERTY遥控器

 

用语音作为命令界面

语音是一个非常强大和直观的界面。一个简单的短语可以包含足够的信息来描述非常复杂的命令。然而,在嘈杂的环境中捕捉短语并提取有实际意义的信息(通常以字符串的形式),这在技术上是一个挑战。幸运的是,产生这个需求的源头,即智能设备与互联网的连接,也为这一复杂问题提供了解决方案。设备现在可以访问云计算,并且可以受益于最先进的语音到文本识别引擎,如Nuance Communications、微软、谷歌、亚马逊等公司提供的技术。如今,基于云的语音识别服务足以提供非常好的用户体验。

 

我们为什么还需要遥控器呢?

其实,不断监听语音命令的解决方案很早就开发出来了,设备可以不断地收听周围的声音并搜索命令。但是,背景噪音和用户与麦克风的距离问题,使得难以正确识别信息。此外,设备和云服务之间交换的数据量非常巨大,语音识别引擎面临大量的请求,其中大部分是不相关的。环境声音的不断记录也带来了严重的安全和隐私隐患。

 

我们需要一种触发器,一般通过按钮、手势或可识别的单词或短语来实现。这种解决方案适用于用户和设备距离很近,例如智能手机。但要在智能电视、机顶盒和用户离设备较远的其他应用中,正确识别触发信号并提供良好的用户体验就要困难很多。麦克风需要靠近用户,不是有遥控器嘛。那么将麦克风嵌入遥控器就再自然不过了。

 

量化语音识别要求

简单来说,语音命令功能的挑战可以表述为:“捕获'足够'的高质量语音记录,将其发送到语音识别引擎,然后处理文本结果以得出用户的命令”。这个短语包含两组基本要求。首先是需要触发器。实际上,需要两个触发器:第一个指示命令的开始,第二个指示结束。

 

第二组要求与音频信号本身有关。语音记录应采用适合引擎处理的格式进行编码,而且质量要“足够”好。质量“足够”好怎么定义呢。安卓兼容性定义文档介绍了有关音频捕获质量指标的一些想法。

 

频率响应应该在100 Hz4000 Hz的语音频谱上几乎保持平坦(+/- 3 dB)。这是描述窄带语音信号的众所周知的规范。关于麦克风产生的信号电平,安卓兼容性指南定义了声功率级-RMS图中的单点,以及线性跟踪声功率级的范围。

 

1 kHz时声压级(SPL)为90 dB的声音,对于16PCM信号,应产生2500RMS。这几乎是16位有符号信号整体振幅范围的10%。想要感觉一下SPL范围的话,正常水平的电视机或典型的人类对话能在1米距离内产生60 dB SPL。相比之下,柴油货车在10米距离处产生90 dB SPL


 

2. 声压级示例

 

当然,我们不能期望用户在随时想使用语音命令的时候,都能把麦克风放在精确的位置并以特定的音量水平说话。鉴于PCM振幅水平可以线性追踪变化,语音识别引擎可以在一系列不同的声压级工作。要求至少30 dB的范围。从90 dB SPL点开始,麦克风应至少从-18 dB+12 dB进行线性跟踪; 因此在+72 dB SPL+108 dB SPL之间。这相当于将麦克风放在离嘴0.8厘米至25厘米之间,并以正常强度说话。

 

3. PCMSPL坐标图

 

语音识别引擎似乎对非线性行为比较敏感。对于麦克风上90 dB SPL输入电平的1 kHz正弦波,总谐波失真应小于1%。降噪处理、自动增益控制(如果存在)必须禁用。

 

 

 

构建语音命令遥控器

现在我们看看语音命令遥控器的架构,我们将按照通过系统的音频信号的路径来看。在这个过程中,我们将着眼于在实现经济有效、功率效率高的语音遥控器时经常遇到的挑战,以及可能的解决方法。

 

4. 典型的语音捕获信号路径

 

一切都从音频捕获子系统开始。这可以基于不贵的模拟麦克风和编解码电路,或数字麦克风,将样本数字化并根据已知的串行协议进行传输。

 

对于电池供电的系统(如语音命令遥控器),将功耗降到最低至关重要。因此,强烈建议对麦克风或外部编解码器等外部元件的电源进行功率门控。

 

音频采样率必须至少为8k Samples / s以满足4 kHz音频带宽要求。但是,每个采样至少16位的16k Samples / s是更常规的选择。采用16位采样可确保足够的声压级范围,从而捕获的音频信号将包含足够的信息,以便语音到文字的识别工作正常进行。

 

采样音频涉及中断或某种形式的硬件 DMA,以获取采样并将其传输到缓冲区。该缓冲区需要将严格定时的音频采样与随后的音频处理解耦。对于低成本设备,音频处理由服务应用程序的相同处理器处理,在某些情况下由BLE协议栈处理。因此,缓冲区的大小将取决于音频处理模块接入CPU、处理音频数据并将其移至下一步所需的最大预期时间。典型的时间在几毫秒内。对于1616k Samples /s信号,每毫秒产生32个字节,160-200字节缓冲器一般足以允许5毫秒以内的处理时间。

 

音频处理模块实现简单的音频处理,并对音频数据进行编码以降低其总体速率。音频处理包括非常基础的滤波,如直流偏移消除或带通滤波,和固定增益以优化音频振幅。原始音频数据为256 kbit / s,可以通过BLE进行有余量地流数据传输。为了降低速率并更好地利用带宽,使用已知的音频压缩算法对音频进行编码。编码器的选择比较多样,从简单的固定速率有损编解码器(如IMA-ADPCM),到复杂的处理密集型固定或可变速率算法(如OPUS)。简单的编解码器可以在MIPS容量较低的CPU上运行,但在相同的输出比特率下,生成的音频流质量较低。另一方面,复杂的算法可以提高编码音频流的质量,但需要较贵且耗电较多的CPU

 

编码器的输出包含需要通过无线传输的最终有效载荷,并且需要一个额外的缓冲器来帮助均衡即时RF数据速率与编码器的平均输出速率。编码器的输出速率等于采样音频速率除以实现的压缩比率。下面的表格显示了Dialog的语音遥控器(Voice RCU)参考设计支持的典型原始和编码音频速率。

 

1. 原始的和 IMADPCM 编码的音频

采样率

原始音频速率

压缩比率

编码的音频速率

16   kHz

256   kbit/s

1:4

64kbit/s

16   kHz

256   kbit/s

3:16

48kbit/s

8   kHz

128   kbit/s

1:4

32kbit/s

8   kHz

128   kbit/s

3:16

24kbit/s

 

BLE是一种基于数据包的协议,在特定时间点交换数据包,由定期连接间隔分隔开。如果干扰在会合点期间发生使数据包失真,则数据将在下一个数据包中重新传输。每个连接间隔都发生在不同的频率通道中。通常,一个频率范围内会经常出现干扰信号,使多个连接事件失真并显著降低带宽。

 

BLE提供了一种叫做信道映射更新的机制来解决这个问题。主设备将检测受影响的频率范围,并实施信道映射更新程序。在此之前,BLE连接可能会经历RF数据速率的显著下降。编码器输出端的缓冲区的大小应相应调整,以便能承受此类事件。大小调整可以使用超安全方法,例如缓冲完整5秒钟信息需要40k字节,或者以一半的速率进行5秒钟的缓冲,而不丢失任何数据,这需要20k字节的缓冲。考虑市场上可用的设备,这是一个非常难以满足的要求。大多数设备的整个协议栈和应用程序都只有20 - 40 kbytes的总可用RAM。这个资源不能浪费在单个缓冲区上。需要注意是,缓冲区的大小与编码器输出速率和确保数据不丢失的时间成正比。

 

市场

[1] [2]

关键字:蓝牙低功耗  语音命令

来源: EEWORLD 引用地址:http://www.eeworld.com.cn/szds/2018/ic-news071113796.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:在智能产品中回归音频本质,让音箱实现音频之美
下一篇:最后一页

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

网友正在学习IC视频

推荐阅读
全部
蓝牙低功耗
语音命令

小广播

独家专题更多

东芝在线展会——芯科技智社会创未来
东芝在线展会——芯科技智社会创未来
2017东芝PCIM在线展会
2017东芝PCIM在线展会
TI车载信息娱乐系统的音视频解决方案
TI车载信息娱乐系统的音视频解决方案
汇总了TI汽车信息娱乐系统方案、优质音频解决方案、汽车娱乐系统和仪表盘参考设计相关的文档、视频等资源

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 电视相关 白色家电 数字家庭 PC互联网 数码影像 维修拆解 综合资讯 其他技术 技术产品 应用设计 论坛

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved