老技术的新生命:mp3PRO

作者:Sender  来源:WaveCN.com  发布日期:2001-06-28  最后修改日期:2008-02-15

新?闻?内?容

2001年6月14日,法国的Thomson multimedia 与 美国的 RCA 公司联合推出了一种新的音乐压缩格式:mp3PRO。据新闻介绍,mp3PRO是基于mp3技术改良而来,具有与mp3格式同样的音质,而文件大小只需原来的一半。新闻中同时强调,该技术与目前的mp3技术兼容,mp3PRO播放器可以播放原来的mp3音乐,反过来,原来的mp3播放器也同样可以播放mp3PRO音乐。Thomson multimedia为该技术的专利的唯一持有人。目前可供下载试用的编码/播放器提供将CD音质的波形数据压缩为64kbps的mp3PRO文件的功能。

??新闻中简单的介绍了mp3PRO的原理:mp3PRO利用的是由 Coding Technologies 公司开发的 codec enhancement 技术和 Thomson 与 Fraunhofer 共同开发的mp3技术。当制作 mp3PRO 文件时,编码器将音频分为两部分。一部分是将音频数据中德低频段部分分离出来,通过传统的mp3技术而编码得出的正常的mp3音频流,此举可令到mp3编码器可以专注于低频段信号从而获得更好的压缩质量,而且原来的mp3播放器也可播放mp3PRO文件。另一部分则是将分离出来的高频段信号进行编码并嵌入到mp3流中,传统的mp3播放器会将其忽略掉,而新的mp3PRO播放器则可从中还原出高频信号,并将两者进行组合,得到高质量的全带宽的声音。通过这样的技术,使得mp3PRO能在64kbps的编码率便可提供与128kbps的mp3相同的质量。

下面是官方公布的特性:
??mp3PRO 是 mp3 和 SBR 以向后兼容方式组合而成的。SBR (Spectral Band Replication) 是一种新的音频编码增强工具,可以改善传统的音频编码的效率和保真度,同时能以虚拟的任何位率提供全频程的带宽。通过仔细设计的兼容特性,传统的mp3 播放器可以从mp3PRO音频流中提取到相当的输出,mp3PRO 播放企业当然可以播放传统的mp3音频流。

??mp3PRO的性能很明显地比mp3要高。mp3PRO 在 64 kbps 的表现比 mp3 96 kbps要好,这使得用户可以非常方便地改善自己的便携式播放器的存储效能。 mp3PRO 同样可以改善128 kbps的保真度,使得可以在家庭环境中能实现CD质量的存储和播放。对于目前那些需要低位率的流式应用(如在线播放),mp3PRO 可以增加压缩信号的音频带宽范围,在目前的流媒体格式上提供相当的质量上的提高。

制?作?和?试?听

??这一类的新闻大多都有枪手的嫌疑。归根到底还是要自己亲手来试验一遍。在网站上下载了播放器(个头不大,1M多点),安装,出来一个看上去挺舒服的界面。立马找个WAV文件来试试。(这里插一句,由于我的光驱抓不了音轨,这个WAV文件是通过光驱的SPDIF接口利用声音卡录下来的。)测试的歌曲是夏韶声(香港歌手)翻唱徐小凤(香港歌手)的《随想曲》,以STANDARD JAZZ方式演绎,使用的高频乐器主要包括高音色士风和沙锤(差不多是乐器中最高频的)。沙锤和架子鼓基本上是一起发声的,因此在一般情况下会把它的声音忽略掉(这与人耳的遮蔽效应和心理听觉有关系了)。

??由于该编码器只是试用用途,因此没有什么可选的选项,只有Allow Intensity Stereo(对于低码率允许强立体声)和Extra High Quality(特别高质量)。当然是都选上。另外有一个Monitor Playback选项可以边压缩边听。源文件必须是CD音质,输出文件也只能是CD音质的mp3PRO。选好源文件和输出文件名后按Encode(编码)按钮开始压缩。

??压缩过程与MP3相比较慢(意料中事),在本人的K6-2-400,256MB RAM,WIN 2K环境下速度大约在1.1到1.3倍速之间变动。(这个速度数值是压缩速度与播放速度的比值,是压缩器自动计算的。)这样的速度,考虑到K6 CPU浮点较慢,可以认为实时压缩是已经能够实现的了。

??不多时,压缩完成。戴上耳机试听。为着有比较性,同时利用LAME和APS以64kbps各压缩一首。考虑到要搞一个具有可比性的文件,于是便强行设置LAME使用MPEG 1 LAYER 3压缩了一个64kbps、CD音质的文件。首先尝试其兼容性,用WINAMP打开,播放,发现播放正确,不过出来的声音只是64kbps,22kHz的。然后查看各个文件的属性,列表如下:

编码器

mp3PRO LAME APS(Fraunhofer) LAME (CD音质)
编码方法 MPEG 2.0 layer 3 MPEG 2.0 layer 3 MPEG 2.0 layer 3 MPEG 1.0 layer 3
位率、帧数 64kbit, 3956 帧 64kbit, 3952 帧 64kbit, 3936 帧 64kbit, 7907 帧
音频属性 22050Hz Joint Stereo 22050Hz Joint Stereo 22050Hz Joint Stereo 44100Hz Joint Stereo
文件长度 822881 bytes 822125 bytes 818688 bytes 822334 bytes

??上下一比较,可以发现即使都是写着MPEG 2.0 LAYER 3,它们的帧(FRAME)数值都是不同的。而且mp3PRO的文件是最大的(虽然比最小的只是多了4KB左右)。这意味着在文件中有不被一般MP3播放器认识的东西,合乎mp3PRO的介绍。而且mp3PRO使用了专门针对22K及以下频率范围的MPEG 2 LAYER 3来进行低频部分编码,低频的质量应该是没问题的了。

??很显然,mp3PRO是一种由两种不同的音频编码算法组合而成的音频流。关键的一点是因为mp3是一种基于帧结构的音频流,播放器在碰到自己不认识的帧的时候会将数据忽略掉,因此可以在传统的mp3流中加入由新的压缩算法产生的帧而同时又可保证其兼容性。

??最后我们来测试一下她的截止频率,也就是说,它能重现的频率范围。方法非常简单,使用任何一个可以生成任意频率的正弦波的音频编辑器生成以下频率的声音,然后使用mp3PRO格式编码重放,通过听取其播放时的表现便可得知其截断频率。通常我们仅仅需要生成以下的频率:15kHz、16kHz、17kHz、18kHz、19kHz、20kHz便可。

??经过试验,mp3PRO无法重现高于16kHz的音频信号。也就是说,mp3PRO始终都还是一种不完整带宽的编码方案。考虑到原来使用的MPEG 2 LAYER 3可以重放 22kHz /2 = 11kHz的最大频率上限,可以得出结论SBR编码仅需要处理16 -11=4kHz的频段信号,因此,它能通过如此低的位率来重放高频信号也是有理由的。

??客观的东西比较完了,我们来看看(应该是听听)那另外的一半数据起到什么作用。用mp3PRO播放器打开刚才压的CD音质MP3文件,按下播放按钮,出来的声音勉强可以接受。色士风的声音还可以,但有一些不明显的“颤抖”,而沙锤的声音则明显失真并严重衰减,被架子鼓的声音“吞噬”了。

??接着播放mp3PRO,从耳机中传出来的声音着实令人吓一大跳,色士风的声音十分完美,与WAV文件的表现几乎一样,只是在某些位置有很难觉察的“颤抖”的感觉,不过是反复对照听了多次才能听出来。关键的沙锤表现也十分好,可以听得清楚清楚,不过与WAV文件相比稍有浑浊,沙子的感觉没有那么明显。 当然,这些都是我的主观感觉,效果是因人而异的。不过可以肯定的说一句,64kbps的mp3PRO音质绝对要比64kbps的MP3要好,至于与128kbps MP3相比,由于缺少了16kHz以上的频段,因此还有一段距离。

??顺带一提的是,这首测试歌曲是WMA的杀手,Microsoft 号称 64kbps的WMA 8能达到CD音质,但通过这首歌的测试发现完全不是那么一回事。

背?后?的?技?术

??究竟是什么技术能使得mp3PRO可以有这样的表现呢?在Coding Technologies 的网站上,我找到了一些资料。技术的关键就在于一种名为SBR(Spectral Band Replication 频段复制)的专利技术。

??这种技术不是独立的。它的主要用途是附加到知觉音频编码perceptual audio codecs 技术上使能显著地改善其表现。目前,已经实现对mp3和MPEG-2 AAC的SBR增强。

??目前,流行的知觉音频编码技术通常都在128kbps左右可以达到CD音质。低于128kbps的时候这些编码方法都显著地出现质量下降的情况。编码器要么就减少音频带宽或者修改立体声影像,要么就产生一些讨厌的噪音信号。原因都是一样的:没有足够的位去表达完整的音频带宽。这两种对编码器的修改方法在某种程度上都是不可接受的。

??解决办法之一是利用SBR编码。SBR (Spectral Band Replication频段复制) 是一种新的音频编码增强工具。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法要么可在指定的位率下增加音频的带宽,要么可以在指定的编码质量要求上改善编码效率。

SBR 可以扩大传统的知觉音频编码算法在地位率时所能提供的带宽。因此它可以相当甚至超过模拟的FM音频带宽(15kHz)。SBR也可改进窄带音频编码的素质,为广播者提供达到12kHz的语音带宽。通常语音编码的带宽都是非常有限的,SBR的作用不仅仅是改善其语音质量,更重要的是改善了语音的可理解性。SBR主要是一种后处理技术,虽然在编码器中为了能正确地使播放器播放而要做一些前期的处理工作。

??从技术角度来看,SBR是一种对音频信号高频部分有很高效率的编码方法。当与SBR一同使用时,本来的编码器只需要负责传输频带中的低频部分。高频部分是通过SBR解码器生成的。在这里,SBR解码器起到的是跟随在原来的解码器的一个后处理作用。与直接传输频谱信号不同的是,SBR是根据对原来的编码器所传输的低频信号进行分析从而重新构建出高频信号的。为了保证能准确地重现信号,在编码后的比特流中需要以非常低的数据率来传输一些指导性的信号。重建的方法无论是对和声还是对近似噪声的组成都同样有效。并允许如同在频域上那样在时域上作适当的SHAPING。结果是SBR能提供在非常低的数据率下的全带宽的音频编码,因而能提供与核心编码相比非常明显的压缩效率的提高。

??SBR能在中到低的位率范围上增强知觉音频编码的效率大约30%(在某些情况下可能更高)。准确的改善程度与所依附的编码器有关。比如mp3PRO,与mp3技术一同使用,可以在64kbps得到能与一般的大于100kbps的mp3音频流相媲美的立体声音频。SBR还可以与单声道或者双声道甚至5.1声道的音频相结合。

展 望

??说到底,mp3PRO这种格式是否具有市场潜力,是否能被广大消费者接受,还需要时日来证明。不过,mp3PRO面临的竞争对手实在太多:Microsoft WMA,RealNetworks RealAudio等等都已经占据了相当的市场份额。另外,mp3PRO本身的结构中没有(至少目前没有)包含任何有效的版权保护机制,这一点对于音乐工业来说是不可接受的。还有更重要的是,MP3本来就是专利技术,SBR同样也是专利技术,两者加起来的专利许可费用会加重相关开发商的生产成本,消弱自己的市场竞争力。综合以上各点,我们只能说,祝你好运,mp3PRO。

- END -


版权所有,未经作者(苏信东)本人许可不得转载于任何媒体

本栏目相关
  •  2003-01-28 更丰富的网络媒体流感受,来自Windows Media 9
  •  2006-02-09 环绕MP3官方介绍
  •  2005-11-27 Parametric Stereo/参量立体声简介
  •  2005-11-26 MPEG 1 Layer-2+SBR对比MPEG 1 Layer-2
  •  2001-04-28 Windows Media 一统天下?
  •  2008-03-10 Xiph.Org 2007年总结
  •  2001-06-28 老技术的新生命:mp3PRO
  •  2005-11-21 mp3PRO 的 Spectral Band Replication 技术详细介绍
  •  2007-02-01 中国的数字音频行业标准DRA™
  • 微信订阅号二维码

    本页网址二维码: