MP4的背后：MPEG-2 AAC

作者：Sender Su 来源：原创内容发布日期：2001-05-17 最后修改日期：2008-02-15

介绍篇

1、MPEG-2 AAC 与 MP4

MPEG-2 AAC(Advanced Audio Coding)，简称A2B或AAC，是目前MPEG音频家族中较新的成员。MP4是基于这一技术而形成的一种商品。

之所以说MP4是一个商品，是因为MP4出现的主要目的就是意图采用一种带有版权限制的音乐格式去取代目前在网络上泛滥的MP3。AT&T公司对MPEG-2 AAC技术进行了一些改良，增加了最关键的音乐传播认证技术，这样就形成了MP4这一种东西。

2、MP4的加密技术

在这里简单说一下MP4里面使用到的加密技术：首先要认识到的是这一切都离不开网络的帮助。在网络上出售音乐的公司需要为自己的客户创建一个所谓的安全数据库，每一个用户都需要在这个数据库里面创建一个唯一的密钥。当用户以播放、复制、出售等方式去处理手头的音乐时，一切的活动都必须通过这一个密钥，结合音乐格式内含的限制信息，去查询安全数据库中的许可协议，看看用户究竟有没有做这种活动的权力。数据库中的许可协议可以应用户要求随时修改，使得MP4歌曲本身包含的版权信息也可以随时更换。

3、MP4的前景

虽然MP4有很多先进的优点，但在与MP3竞争的过程中鹿死谁手还有待分晓。关键原因是MP3的使用没有任何限制，这种特性在本来就没有限制的网络上得到充分体现。相反的是虽然AAC技术是公开的，但MP4本身却是受到严格的专利和使用许可证保护的。毫无疑问这肯定使得MP4的应用范围非常狭窄。而且，现在网络上应用了AAC技术的声音格式、编码器、播放器等由于最终文件格式的原因而基本上互不兼容。这一点非常致命：用户要选择一棵树，然后在那棵树上吊死。

要消灭一种正在流行中的东西是需要用很长的时间的。而且，新的音乐技术已经诞生，比如MPEG-4的Structure Audio，可以实现完全无失真、100:1的音频压缩，到了新技术流行的时候，MP4相信也会很快被淘汰掉。

技术篇

4、MPEG-2和MPEG 2.5

MPEG-1和MPEG-2在音频方面都使用相同的音频编解码家族： Layer-1, -2 和 -3共三层。数字越小，相对应的技术就越简单，越容易实现。MPEG-2的新音频特性主要表现在MPEG-2具有低采样率扩展以满足只具备非常有限的带宽的应用范围。新的采样频率为: 16, 22.05 或 24 kHz, 比特率则扩展到 8 kbps。

MPEG-2标准允许比特率低到8kbps，在该种情况下，实际有效的音频带宽需要做出限制，比如限制到3khz。因此，实际的采样率会被减少到8khz。采样率越低，频率分辨率就越好，时间分辨率就越差，流格式中控制信息和音频数据的消耗比就越好。由于MPEG-2定义的最低的采样率为16kHz，于是Fraunhofer便对此进行扩展，将原来MPEG-2所支持的低采样率再除以2，得到： 8, 11.025, 和 12 kHz ，称为 "MPEG 2.5"。在第三层的音质表现上，8 kbps @ 8 kHz 或 16 kbps @ 11 kHz 明显比 8 或 16 kbps @ 16 kHz 要好。

关于MPEG-1，请参阅本站的其他文章，如MP3 FAQ中文版。

4、AAC技术

AAC于1997年形成国际标准ISO 13818-7。在MPEG-2制订的早期，本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所当然地，这个标准是不兼容MPEG-1的，因此被称为MPEG-2 AAC。换句话说，从表面上看，要制作和播放AAC，都需要使用与MP3完全不同的工具。

5、AAC的工作方式

AAC之所以不兼容MP3，关键是它使用了不同的压缩处理算法，并且增加了许多新的特性。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。

我们来看看MPEG-2 AAC 是如何工作的。首先，音频数据通过多相积分滤波(PQF)被分离为四个标准的子带。对于每一个子带都传输一个独立的增益，作为边信息（side information)。在增益控制下的子带数据然后以长度为256的MDCT来(对于瞬时条件长度为32)转换。在MDCT中使用的窗口是 Kaiser-Bessel derived (KBD) 或正弦窗，两者的频谱特性不相同可适应不同的信号。在瞬时条件下使用较短的窗口以改善时间分辨率。

MDCT 系数通过两个预报帧获得预报, 对于每一个频段使用一种独立的LMS-adapted (Least Mean Square最小均方)预报器。这改善了恒定信号的编码效率。预报后的残余被非均衡地量化并使用11种Huffman编码中的一种来编码。

MPEG-2 AAC 还包括许多可选的附加特性。最令人感兴趣的是暂时噪音抑制（Temporal Noise Shaping），该技术主要对瞬间信号起作用。

6、技术指标：

音质特性：
CD 质量 96-128 kbit/s
扩展比特率: 8-64+ 千位/秒/通道
扩展采样率：8-96kHz (优于CD质量)
多通道声音：48 个主要音频通道，16 个低频增强通道，16 个集成数据流, 16 个配音，16 种编排

编码/解码技术：
基于MDCT的滤波器段和块（窗口）切换
1024 系数长块增益编码
128 系数短块时间分辨率编码
开始/停止块
暂时噪音抑制（Temporal Noise Shaping）：使用预报分散量化噪音。
预报：对相关信号使用LPC语音编码技术
联合编码：消除立体声冗余M/S (L+R/S-D), 或 R/L 联合强度。
比例因素：对频谱系数分段共享增益值以抑制噪音 (长块时使用49波段)
量化：量化分辨率系数微调。(4/3 power)
无噪音编码：通过huffman编码消除波段和段落中的量化频谱冗余(11种编码方式)

标准原型：
霍夫曼(Huffman)编码
量化和比例缩放
M/S 矩阵
强度立体声
通道耦合
回溯的适应预报
暂时噪音抑制。(TNS)
修饰离散余弦变换(IMDCT)
增益控制和混合滤波段(多相积分滤波polyphase quadrature filter (IPQF)+IMDCT)

其中，最重要的新技术是回溯的适应预报，45% 的编码时间花在了这一技术上。不过，解码立体声音频流只需要奔腾100的一半CPU时间。

低复杂程度的原型:
无预报
TNS 限制在12个系数内，但仍然跨越18 kHz 的带宽

可缩放采样率原型：
无预报
无耦合通道
增益控制
混合滤波段(IPQF + divided IMDCT)
TNS 限制在12个系数内，同时限制在 6 kHz 带宽内。