MPEG-4 Structured Audio 结构化音频

作者：Sender Su 来源：原创内容发布日期：2001-06-16 最后修改日期：2008-02-15

MPEG-4大家可能已经听说过，但Structured Audio结构化音频相信就没多少人知道了。简单地说，它是MPEG-4规范的一个组成部分，其最大优点是使得声音能够以完全没有损失的方式进行压缩，并且压缩率可以达到前所未有的程度，一般都有几十比一！

看到这里相信很多人正在满地找眼珠子。大家可能会问，这么好的东西，为什么没有在网络上迅速流行开来呢？

先别急，我们慢慢来。首先，大家都应该对MPEG有所了解了，关于MPEG音频的东西这里就不详细讲。有兴趣的可以看看本站的其他文章或到www.cselt.it/mpeg/逛逛。

MPEG-4是下一代的MPEG压缩技术，与前面的MPEG-1和MPEG-2所不同的是，MPEG-4是一种非常雄心勃勃的规范，单其音频部分就有好几个组成部分，因此实现起来十分复杂。Microsoft的Windows Media 7、8采用了其中的部分技术（不过Microsoft称他们做了一些增强，也就是说，不兼容！）。而Structured Audio结构化音频则是MPEG-4音频规范的其中一部分。

传统的信息编码都是基于样本数据的，也可以认为是基于数字的表达方式，关于这方面的知识大家可以看看本人的另一篇作品：计算机与音频。

Structured Audio结构化音频这个名字是与计算机上的数字化音频相区别的。传统的数字化信息编码方式无法让人们从编码数据中分析出什么东西。必须以人的本身去感知解码后的媒体信息。而结构化音频的设计目标就是要弥补传统编码方式的不足，在提供压缩编码的同时，可以直接从编码数据中获得其表征意义。这给未来的媒体信息检索等新应用提供了无尽的方便。

结构化音频的工作方式与目前我们使用的任何一种音频格式都不同。因为结构化音频实际上是根据参数生成声音的算法的集合，其前身是麻省理工学院的CSound。那些用于生成声音的参数，通过一种名为SAOL(Structured Audio Orchestra Language)的语言来描述。懂编程的人一眼就可以看出其语言结构与C语言非常相似。声音生成的方式是不固定的：所有能够合成声音的方法都可以成为处理过程的一部分算法，包括未来的任何新技术。目前，SAOL已经定义了的声音合成方法包括：FM合成、物理模型合成、采样合成、粒度合成、负合成、FOF合成，并且可以混合使用。除了SAOL之外，还有一个称为SASL(Structured Audio Score Language)的乐谱语言，用于控制在SAOL中提供的信息。相关的组件还包括：SASBF (Structured Audio Sample Bank Format)，用于传输波表、合成器等使用的音频采样信息，目的是为了与MIDI DLS技术相结合，而不是用于结构化音频的播放；MIDI Semantics，提供通过MIDI控制SAOL的支持；Scheduler，提供播放的实现，即播放器的规范；AudioBIFS，MPEG-4的场景描述格式的音频部分，用于描述播放环境。

结构化音频技术的关键在于"标准化"：声音无论在什么条件下解码听起来都是一样的。同时，产生出来的声音与物理表现无关：声音可以被解码为任何频率和采样精度。

看到这里，列位可能马上有反应了：这不跟MIDI一个样嘛！这也不完全错，因为MIDI也是结构化音频所支持的一部分。但MIDI只能提供给计算机什么时候演奏什么音符，顶多就是加上如何演奏的信息。但结构化音频描述的是音符将发出什么样的声音来。或者再有人提出：MIDI加上DLS不就连音符发出的声音也描述了吗？表面上看如此，但DLS数据是乐器的录音采样，因此连带了DLS的MIDI文件体积是惊人的（这也是软波表依然存在的理由）。但如果是结构化音频，则结构化音频里面带的信息是告诉计算机，如何通过特定的方法去产生每一个声音，因此是不需要采样数据的。这就是为什么结构化音频的压缩比如此巨大的原因。

结构化音频的工作方式就是通过描述如何通过计算去制造特定的声音，并且同时提供如何播放这个声音的信息。这里的"如何播放"的关键是支持物理模型。举个例子说，现在有一些管风琴的声音，演奏地点是在教堂里，这个教堂长宽高各是多少多少，还有多少张椅子多少扇窗户什么的。这些因素统统加在一起组成了我们听到的声音。这样的声音，使用MIDI是完全不可能重现的。而结构化音频则可以通过足够的描述信息去说明这个场景，从而营造一个完全相同的演奏环境。在创建了演奏环境的物理模型后，再把音频数据传送过去就可以节省大量的数据信息。最关键的是，通过这样的方式产生的声音是与原本的声音完全相同的！

不过，想将传统的音频数据转换为结构化音频格式在目前是不可能的事情。通过大量的分析计算，可能可以合成出单一的乐器，甚至多个乐器的重奏，但这只是可能。我们关注结构化音频，是因为结构化音频最重要的地方就是指明了以后媒体信息编码的基本方向：基于事物对象，而不是基于样本数据。所谓基于对象的媒体，也就是通过标准的描述语言去描述信息。MPEG-4是第一个包含基于对象的媒体信息压缩和存储方式的标准。在2001年7月份推出的MPEG-7，基于对象的编码方式将会成为标准方式。相信在将来，所有的媒体信息编码都是基于面向对象来编码的。

想了解关于结构化音频的更多信息（示范、解码器、源代码等），请访问以下官方网址：
http://sound.media.mit.edu/mpeg4/index.html

- END -

本栏目相关

1999-05-20 Module音乐大全

2005-11-27 Parametric Stereo/参量立体声简介

2005-11-26 MPEG 1 Layer-2+SBR对比MPEG 1 Layer-2

2005-11-25 aacPlus 简介

2001-06-16 MPEG-4 Structured Audio 结构化音频

本站微信订阅号：