声音识别描述符和描述方案是索引和分类全部声音效果的一组工具。它们支持自动化声音效果识别和索引,而且包含了详细说明声音分类的 工具和声音识别的工具。此识别器可用来自动索引和音轨分段。
(2)说话内容描述工具
基于目前的语音系统并不完美,从而产生了说话内容描述工具。它不是一个简单的说话文本(虽然它也能适应这种情况),这个描述方案包含了合并词和音位格,它能为音频流中的每一个说话者服务。通过结合音位格的方式,很大程度上解决了在出现词汇表之外的词汇所带来的问题。即使原始解码出错,或者单词超出了识别引擎的词汇表的范围,检索信息依然能够能够进行。它能够用于两大类别的检索方案:音频流的索引和检索以及语音多媒体对象的索引。
(3)乐器音色描述工具
音色描述针对的是对乐器声的感知特性的描述。音色作为感知特性被定义在库中。当两个声音拥有相同的基音音高和响度时,但是听起来却不一样,这是因为这两个声音音色的不同。音色描述工具利用简化的一组描述符描述这些感知特性。描述符涉及到一些概念,例如声音的起始时间、明亮度或者丰满度。
总共存在有四类乐器声:谐和、持续、连贯的声音;冲击性非持续的声音;非谐和、持续、连贯的声音;非连贯、持续的声音。在这4大类中,MPEG-7标准已经详细说明了前两类,而且一直在不断更新中。另两类被视作低优先级,因为它们相对比较少见,但是标准仍对它们进行了说明。音色描述工具广泛使用了前面讨论过的音色时域和频域的低层描述符。
(4)旋律描述工具
有两种方法来描述旋律特性,采用哪一种取决于你所需要的简洁度和精确度。旋律轮廓(melody contour)描述方案是一种简洁描述旋律信息的方法,它允许有效、稳健地旋律相似性匹配,例如,通过嗡声查询。旋律轮廓(melody contour)描述方案使用5步轮廓法(表示相邻音符的音程长度的不同),并且音程被量化。旋律轮廓描述方案还可以通过存储每个音符最邻近的拍数来表示节奏信息,而且这还能显著的提升从资料库提取信息匹配的准确度。
对于应用来说,需要更加优良的描述准确度和给定旋律的重建能力,所以旋律描述方案支持描述符集合的扩展和高精度音程编码。音符跟音符之间有着精确的音高区间(精度到分或者更高),而不是只量化到5个级别。通过对类似音高区间的音符起始时间的差异的对数比进行编码,才有了精确的节奏信息。这些核心描述符是一系列的可选支持描述符,例如歌词、音调、韵律和起始音符,以满足应用的需要。
(5)鲁棒匹配工具
鲁棒音频匹配工具能够稳健和有效的完成音频信号的身份匹配,也就是说,即使在信号有了线性或者非线性失真之后,也能够去区分两个音频信号在本质上是否相同。未知音频信号和相关的资料数据库条目能够进行稳健和有效的匹配,这使得它具备了音频材料的自动识别功能,以及能够仿真出跟人类能力一样基于记忆的声音的识别能力。更重要的是,在MPEG-7标准中,建立了为现有的传统音频格式的给定音频内容块来查找内容描述数据(例如,歌名或者歌手名字)的方法。例如CD不提供任何链接到相应的描述数据库条目。 虽然鲁棒音频匹配在原则上可以通过若干特征而实现,但是使用MPEG7中的频谱平坦度描述符就可以完美的实现了。
三. MPEG-7音频的应用
1.说话内容搜寻
语音是人类相互交流沟通的最重要的手段,与我们的生活息息相关。所以能够实现对于说话内容的搜寻功能显得非常的重要。现今的自动语音识别器都是基于单词/音位格的。
前面已经简单讲过MPEG-7对于说话内容的描述的方法。它先存储音位格作为描述数据(而不是用纯文本的形式),然后采取查询/匹配的方法,并且它允许模糊处理和未知单词的检索。这个应用可以使你能够检索某一段的说话内容,还能够使用语音对某段内容加上注解。
2.一般声音识别和索引
当你面对各种各样的声音,甚至是复杂的混合声时,该怎么样去识别其中的一个呢?当你面对两个相似的声音时,怎样去解决这个问题呢?对它们进行频谱独立分量分析和利用隐马尔科夫模型就可以很好的区分出来。
3.存档和恢复
这个应用很好的解决了文化遗产(音频部分)的保护问题,我们可以对它们进行存档以给日后使用。我们经常想要保存原始的录音,这样在日后我们可以对它进行后期处理或者恢复。对于存档和恢复音频文件,MPEG-7是通过音质描述编码实现的,这其中包括对它们的一般音质、技术录音参数、缺陷的位置和类型进行记录编码。
4.乐器音色搜寻
人类对于声音的感觉不只包括音调、响度和持续时间,还包括音色的感知。MPEG-7通过使用感知相关特性去描述单声道乐器声以对声音进行比较,而且它还考虑了持续谐波声和冲击乐器声。
5.旋律搜寻
对于如何搜寻旋律的问题,它要求搜寻工具不仅能够高效工作而且能够容许音调和时间稍微不准确。MPEG-7的方法是采用旋律描述编码,它对音调、节奏、时间信息等进行编码,以进行搜寻。
6.音频识别/指纹
关于怎么识别一段录音的问题,MPEG-7所用到的方法是存储数据库的原始文件的MPEG-7的签名/指纹来实现,再通过和数据库签名进行匹配来识别未知的音频材料。这种通过从音频信号中抽取独特签名来自动识别音频内容的音频指纹方法获得了广泛的兴趣。不仅如此,MPEG-7还可以应用于说话人的识别。
四. 结论
在发布了几代的音视频压缩标准之后,MPEG标准小组把工作范围延伸到了多媒体内容的描述上。因为对音视频内容的高效搜索和检索的需求在不断增长,MPEG-7标准试图为音视频提供标准的内容描述方法。尤其是标准中的很多描述工具被用来有效地表示内容的内部结构和特性,而不是像其它的元数据标准一样以纯注解形式来描述。MPEG-7音频提供了通用概念以及它有着面向应用的特点,同时它具备很多功能,例如音乐的哼唱检索应用、声音效果识别、乐器音色描述、说话内容的注释、音频信号的稳健匹配等。