引言
MPEG-1、MPEG-2、MPEG-4数据压缩与编码标准只是对多媒体信息内容本身的表示,而MPEG-7标准则是建立在MPEG-1、MPEG-2、MPEG-4标准基础之上,并可以独立于它们而使用,它提供的是关于多媒体信息内容的标准化描述信息,不是内容本身,而是关于“数据的数据”。MPEG-7标准并不是要替代这些标准,而是为这些标准提供一种标准的描述表示法。其实,早在1997年,MPEG-7就已经被提出来,当时的提出者很好的预计了我们今天面对的网络世界。现在每一个因特网用户每天面对着网路上面数百万兆的音视频信息,但是还不存在一种搜寻你所要的音视频内容的统一方法。这样,MPEG-7应运而生。它定义了一个通用的标准结构,可以交换描述多媒体内容信息的数据,从而支持内容搜寻和管理。因此,MPEG-7的官方称法为多媒体内容描述接口,同时这一名称也表示了它所代表的应用范围。(见图1所示)
虽然有很多种描述方法可以描述一段多媒体内容,但是描述格式的定义通常是规范的,所以具备了可用性、统一性和互操作性。鉴于是标准描述化,所以MPEG-7标准只是指定描述的格式(语法和语义)。
虽然提出多媒体内容描述接口的初衷是为了解决人们在面对多到泛滥的网络多媒体信息面前的无所适从,但是MPEG-7的应用绝不仅限于搜寻,它也有很多其他类型的应用,例如实时监控、广播过滤,半自动编辑,自动播放列表的产生。
在本篇论文中,我们将讨论MPEG-7的基本理论,并且侧重于音频方面。
一. MPEG-7基本
1.定义
MPEG-7的基本描述实体叫做描述符(descriptor),它通过定义语法和语义来表示特定内容的性质、特征和属性。在音频领域中,描述符可以描述音频信号的频谱包络。
描述方案(description schemes)的作用是联合和构造描述组件,以满足应用的要求。描述方案包含了一系列的描述符和同一个体系中的其它的描述方案。
描述符和描述方案在语义上都是由所谓的描述定义语言(description definition Language,DDL)定义的,它可以进行扩展。MPEG-7 DDL是以XML语言为基础,因为它可以实现内容描述的文本表示,并且允许描述工具的扩展。
2.描述定义语言- DDL
描述定义语言是基于XML(文本格式)的描述性语言。之所以采用XML语言一部分是因为它是SGML语言的延伸,而且它的普及型确保了描述工具的扩展性。此外,MPEG-7采用XML还因为它在与多媒体内容描述相关的数据结构的创建中发挥着巨大的作用。
但是MPEG-7 DDL不是对XML语言规范的完全复制,它有少许的改变,比如它对一些特定的数据类型提供扩展支持,并且它剔除了多余的特征等。特别是,DDL引入了定义数组和矩阵的新型结构,扩展了XML语言架构的功能。
3.多媒体描述方案(MDS)
创建多媒体描述方案不只是为了满足不能单独适用于视频或者音频工具的需要,而且能够满足多媒体内容的需要。所以,MPEG-7标准中的MDS提供了与MPEG-7音频标准相关的一系列的两个层次的工具。首先,有一系列低层次的工具,它包含了扩展的数据类型,例如音视频数据的段的基本定义类型,还有一系列高层次的工具,它超出了音视频描述的范围,允许音视频相关,例如高层次内容的语义描述。为了避免MPEG-7标准会存在冗余功能,它的音频部分是由MDS提供音频文件所需要的工具集。
二. MPEG-7音频
MPEG-7音频标准的结构可分为两个类别,就是通用音频描述框架和特定应用工具。音频描述框架即基本兼容层(工具箱),也就是通用描述和特定应用构建的基础,而且它还包含了可扩展系列方案、低层描述符(LLDs)、静音段(silence segment)。另一方面,声音识别工具、乐器音色描述工具、说话内容描述工具、旋律描述工具、鲁棒性音频匹配工具分别专注了它们各自的应用领域,所以它们的描述能力都比较强。
1.描述结构
MPEG-7音频依赖于两个基本结构,段和可扩展序列。
段数据类型实际上由MPEG标准的MDS继承而来的,而且在一开始就被MPEG-7音频描述所采用。音频段和段分解共同作用可以连续的分解音频流。将音频分为“段”,它的依据是每段至少得有一个特征,无论是概念上的还是数学上的。你可以把音频流分割成任何你想要的分辨率,以及任何层次的深度。只要子段的时域范围完全在母段上,母段本身的特性就会限制子段的特性,而且子段可能会存在缺口、重叠、两者都有或者两者都无。特定的一段时间的音频流可以被任意数量的段所描述。
可扩展序列的核心是一系列对应于描述符的采样值。最普遍的设想是它作为一个时间序列的同时,同样适应于频域的采样。可扩展序列还能够存储各种各样的汇总值,如描述符值的最大值、最小值和方差。
2.低层音频描述符
一般来说,涉及到大部分的音频信号的低层描述符,能够分成以下几个组别,同时下面给出了描述符的描述范围
基本:瞬时波形和功率值。
基本谱:对数频率功率谱和频谱特性,包括谱心,频谱延展性,频谱平坦度。
信号参数:准周期信号的基频和信号谐波。
音色时域:对数表示的开始时间(log attack time),时域分割的单声道音频的时域中心。
音色谱:在线性空间内的频谱特性。例如单声道音频的谱心,还包括信号的谐波部分的频谱特性,也就是谐波谱心,频谱偏差,频谱延展性,谱变化。
频谱的基本表示:主要用于声音识别的特性,一般用于在低维空间的识别。
2003年MPEG又发布了MPEG-7 Audio Version 2,增加了一些低层描述符,包括音频信号质量描述符和音乐节拍(BPM)描述符。音频信号质量描述符描述的范围包括背景噪声、音频通道互相关、相对延迟、平衡、DC偏移、带宽和传输技术,以及录音错误。并且对原先的MPEG-7 Audio进行了扩展,增加了对立体声/环绕声的描述和说话内容的描述。
3.面向应用的音频工具
(1)声音识别工具