微信订阅号二维码
本栏目热门内容
  • 全格式自动改名器 Ver 4.0...
  • mp3的无损版本:mp3HD已经...
  • Ogg Theora 1.0 发布
  • 继Opera之后,Firefox(Ge...
  • Linux 音频 API 指南
  • Module音乐大全
  • 常见疑问(FAQ)
  • WaveCN 教程
  • 发现一个德国人做的音频网...
  • Rockbox Utility介绍及Roc...
  • 基于WaveX低级音频函数的...
  • 最流行的无损压缩格式FLAC...
  • 安装使用WaveCN
  • 音频制作与编辑初级教程节...
  • 如何用WaveCN录制自己的音...
  • Rockbox系列三:关于 Rock...
  • MPEG-4 音频无损编码:MPE...
  • Rockbox 3.0 释出。
  • Rockbox系列一:开源的Roc...
  • 音频文件格式全介绍
  • 音频术语中常见的“采样频...
  • WaveCN 运行截图
  • Windows 播放音频文件音量...
  • 最流行的无损压缩格式FLAC...
  • 来自俄罗斯的无损音频压缩...
  • Graph Editor 教程
  • LA - LosslessAudio 无损...
  • 最流行的无损压缩格式FLAC...
  • Rockbox系列二:Rockbox具...
  • 更多...

    MP3 FAQ中文版
    作者:Sender  来源:WaveCN.com  发布日期:1999-03-28  最后修改日期:2008-02-15

    写在前面的话:
      本来是想提供中英对照的文字的,后来还是把英文原文另外打成一个ZIP。这里翻译的应该和这里提供的原文有些不同。因为我手头上有这个FAQ的两个版本,一新一旧,翻译出来的东西其实是这两个版本的合体。
      在这个FAQ里面是有很多术语的,由于本人才疏学浅,可能有不正确的地方,欢迎来信指正。
      本文版权所有,未经本人(苏信东)许可不得转载于任何媒体。


     

    目录



     

    什么是MPEG Audio Layer-3?

      今天,通过计算机对数字音频和视频数据进行性能价格比均衡的编码技术已经成为必须。对于那些只有有限的传输带宽或储存容量的应用来说,如何压缩动态视频和音频的数据量便成为了关键技术。在近几年已经取得了大量的研究成果。虽然现在仍然存在着许多视频和音频的编码格式,但ISO/IEC组织已经颁布了一个国际标准:MPEG,作为一个强有力的音频和视频编码工具。

    历史

      在1987年,IIS 在EUREKA EU147计划:数字音频广播(DAB)的框架内开始知觉音频编码上的研究。通过与Erlangen大学(Dieter Seitzer教授)合作,IIS最终发明出一种强有效的算法,那就是后来的ISO-MPEG Audio Layer-3(IS 11172-3 和 IS 13818-3)。

      没有数据压缩时,典型的数字音频信号是以16位方式采样并以两倍于实际音频带宽(比如:44.1KHZ的CD音质)进行记录的。所以你需要高达1400K比特的数据量来重放仅仅一秒的立体声CD音质音乐。通过使用MPEG音频编码,你可以把原来CD上的音频数据量缩小为原来的12分之一,而不损失声音质量。24分之一或更小也同样可以维持相当的声音质量,而且明显比简单地降低采样大小和记录频率而得到的声音质量要好。基本上,这认为是通过“知觉编码”技术把人耳对声波的感觉定位。

      通过使用MPEG音频,我们可以在得到如下的典型数据压缩率:

    1:4 应用Layer 1(即每个立体声信号为384 kbps)
    1:6...1:8 应用Layer 2(即每个立体声信号为256到192 kbps)
    1:10...1:12 应用Layer 3(即每个立体声信号为128到112 kbps)

      的同时,仍然可以维持原来的CD声音质量。

      通过增强立体声效果和限制音频带宽,这套编码方案可以在即使很低的比特率下也能获得可以接受的声音质量。Layer-3是MPEG音频编码家庭中最有力的成员。对于既定的声音质量,它能提供最低的比特率,或者说,对于既定的比特率,它能获得最好的声音质量。

      一些典型的Layer-3表现数据:

    声音质量 带宽 模式 比特率 压缩比
    telephone sound 2.5 kHz mono 8 kbps* 96:1
    better than shortwave 4.5 kHz mono 16 kbps* 48:1
    better than AM radio 7.5 kHz mono 32 kbps 24:1
    similar to FM radio 11 kHz stereo 56..64 kbps 26..24:1
    near-CD 15 kHz stereo 96 kbps 16:1
    CD 大于 15 kHz stereo 112..128 kbps 14..12:1
      *: Fraunhofer 使用了一个非ISO的Layer-3扩展来增强表现素质(MPEG 2.5)。

      在所有的国际性的听觉测试中,MPEG Layer-3令人难忘地证实了它的出众的性能。在压缩率为1:12的时候(大约每通道64K比特/S)维持了原来声音的质量。如果一个应用能容忍大约为10KHZ的有限的带宽,一个合理的立体声声音质量可以达到1:24的压缩率。对于那些使用每通道60K比特/S的比特率的低比特率声音编码方案的广播应用,ITU-R建议使用MPEG Layer-3。(ITU-R doc. BS.1115)

      总的来说,Layer-3是众多要求低比特率,高音质的应用的关键。

    返回目录
     

    应用 - 或:Layer -3,究竟有什么好处?

      象Layer-3这样的关键技术对于相当大范围的应用来说是非常有用的-实际上几乎所有只有有限通道容量的系统都能从中获益。下面的章节确认了一些主要的领域和列出了一些积极地开拓Layer-3技术的公司。与产品有关的信息请直接联系这些公司。

    通过ISDN的音乐连接

      数字电话网络(ISDN=综合业务数字网)用每个基本率适配器两个64KBPS数据通道提供可靠的拨号连接,其他地区性网络(在北美)使用56KBPS数据连接。传送费用与传统模拟电话线相比时常是稍微相近或相等的-但那些传统模拟电话线仅允许传输速率最高为 28.8 kbps (V.34 modem) 甚或 32 kbps (V.34+).
      使用Layer-3,一个低成本窄带ISDN连接允许传输CD质量的声音。音响专家,比如广播电台或录音室,从不同方式的“Music-By-Phone(以电话传输音乐)”的应用中获益。他们节省了费用,因为他们只需要根据实际使用时间(而不是24小时租用电话线)和一个相当小的数据通道(每个立体声音乐连接只需一个ISDN电话连接)付传输费用。电台因而增加了他们的节目的魅力,记者可以传输高质量的拍摄(比如一个会议)或现场新闻而没有烦人的“电话声音”。并且新的应用变的可行了,比如说,一个“虚拟播音室”,远处的艺术家们可以合作一些制定的东西而不用真的到播音室去。

    举例:

      在1992年,RADIO FFN,德国Niedersachsen一个私有的广播电台,把原来租用的电话线换成了ISDN和Layer-3编解码来每天传输8套共20分钟的当地节目到中央广播电台。这一举措替他们每年省下超过30万美圆。作为首次实地试验之一,德国的所有私营电台非常成功地在法国Albertville冬奥会上使用了Layer-3编解码技术作为记者在不同的运动场合与他们在Meribel的中央电台的联系。在Bergen的92年国际音乐节上,Arne Nordheim演奏了一段音乐,由在Trondheim的教堂的一台钢琴和在Bergen的交响乐团合作,钢琴声通过ISDN和Layer-3编解码进行传输。


      这里略去一段有关其他实际应用的说明和WINPLAY3的介绍。毕竟现在大家都用WINAMP了。

    MMP

      MMP是一种灵活的多媒体数据保护格式,可以支持以下的功能:

      解锁:解开20秒播放限制
      版权保护:对全部或部分数据应用加密方法
      标题/数据相关:比如ISRC代码,用户资料
      过期时间:用于有限使用

      更多的细节信息请查看以下网址:www.iis.fhg.de


      略去对以不同形式储存MP3音乐的方法的介绍。
    常见问题解答

    问:OK,Layer-3对于许多应用来说显然是个关键,但它又有什么限制?
    答:Layer-3是一种知觉音频编码方案,利用了人耳的特性,同时尝试尽可能地维持原来的声音质量。
      与之对比,一个专门的语音编码解码利用了人类发声器官的特性,尝试尽可能去维持语音信号的可理解性。高级语音编码方案(比如:CS-ACELP[LD-CELP],被ITU 作为标准 G.723.1 [G.728])达到最低的可用比特率的语音重放于5.3[16]KBPS,伴随少于40毫秒的编码解码延时。在如此低的比特率,它们对纯语音信号的表现优于Layer-3,同时提供了对于全双工语音通信来说必要的低延时。

      在MPEG-4的框架里,可升级的音频编码技术被设计为组合了语音编码和知觉音频编码。

    问:您提到了编码解码延时,能提供些数字吗?
    答:可以。标准提供了一些理论上的最小延迟数字:
      Layer-1: 19 ms (<50 ms)
      Layer-2: 35 ms (100 ms)
      Layer-3: 59 ms (150 ms)
      实际数字明显高于这些。因为它们依赖于实际执行,准确数字是很难提供的。所以,在中括号内的数字仅是大约值 -- 真正的编码解码可能显示更高的数值。当然,这些延时会使相当一部分的应用受害(如远程记者团的反馈连接)。对于许多的其他应用来说,延时并不很感兴趣。

    返回目录
     

    纵览ISO-MPEG标准:MPEG是关于什么的?

    问:什么是MPEG?
    答:MPEG 是 Moving Picture Experts Group, “运动图象专家组”的缩写。在ISO(国际标准组织)和IEC(国际电子技术委员会)的组织下共同工作。这个团体在运动图象和音频编码标准上作研究。MPEG有自己的网页,提供了有关这些标准的各种信息。

    问:什么是MPEG-1,-2,和其他?
    答:MPEG逐步地接近在多媒体标准方面增长的需要。如今,三个主要步伐已经定了下来(MPEG-1,MPEG-2,MPEG-4)。
      MPEG-1:为数字存储媒体在1.5M比特/s的比特率对运动图象和关联的音频进行编码。
      MPEG-2:对运动图象和关联音频信息进行通用编码。
      MPEG-3:原来计划主要是为HDTV(高清晰度电视)而设计的,后来,被并入了MPEG-2。
      MPEG-4:对音频可视对象进行编码。

    问:MPEG-3和Layer-3是同样的东西吗?
    答:不!Layer-3是MPEG标准的一部分,是一种强有力的音频编码方案。Layer-3是在现存的MPEG-1和MPEG-2国际标准的音频部分上定义的。没有定义过MPEG 3标准。

    问:我如何能取得MPEG文档?
    答:你可以联系ISO,或者从国内的标准组织处订购。

    问:有公开的C语言源程序吗?
    答:有的。在不同的站点上都有公开的C源程序。比如在:
    ftp.iis.fhg.de/pub/layer3/public_c/
    这个代码只是用来作解释作用的,所以别指望性能会怎么样。

    问:“NBC音频”?这个工作组的动机是什么?结果又怎么样?
    答:在多通道音频编码(IS-13818-3)的工作中,发现矩阵处理给向后兼容(Backwards Compatible)机制带来了麻烦。需要矩阵处理去让一个MPEG-1解码器通过双通道立体声去回放所有的环绕通道。不幸的是,在反矩阵处理后,一些带入性量化噪音会变得可以听到。普遍来说,在1994年春季的一个ISO听觉测试上,BC多通道编码效果比起非ISO编码机制(比如:杜比AC-3)很差。所以,NBC工作组现在开发了一种新的音频编码机制。不仅在多通道环绕声,而且在单声道信号,NBC音频都取得了明显的素质改进(这里的目标是在64KBPS下“真正透明”)。
      在1996年春季,ISO进行了一个5通道环绕声听觉测试,并且使用了总比特率为320KBPS的NBC的得分比比特率为640KBPS的Layer-2 BC要高。NBC音频也将成为MPEG-4音频编码算法中的一个成员。

    返回目录
     

    关于MEPG Audio的一些基础:Layer-1,Layer-2,Layer-3之间有什么不同?

    问:谈到MPEG AUDIO,我总是听到“Layer 1,2,3”,这代表什么?
    答:MPEG描述了使用高素质知觉编码机制的音频信号压缩。它制定了包含有三种音频编码机制的一个家族,简单地称为:Layer-1, Layer-2, Layer-3。从Layer-1到Layer-3,编码复杂性和素质(每种比特率的声音质量)不断提高。

      这三种编码解码是继承性地兼容的,也就是说,Layer-N的解码器可以解码用LAYER-N或低于N的所有LAYER来编码的音频流。

    问:所以我们有一个由三种编码机制组成的家族。那MPEG标准是怎样确切地定义的?
    答:对于每一个LAYER,标准都指定了比特流的格式和解码器。为了将来的改进,它没有指定编码器,但对于每一个LAYER的编码器都有一情报性的章节给出一个范例。

    问:三个音频LAYER有什么共同点?
    答:所有的编码器使用相同的基本结构。编码机制可以描述为“知觉噪音成型”(perceptual noise shaping)或“知觉边带/变换编码”(perceptual subband / transform coding)。编码器通过计算滤波器段(filterbank)分析音频信号的频谱组成并应用精神听觉(psychoacoustic)模式来估计仅仅可以注意得到的噪音电平。在其量化和编码阶段,编码器尝试分配尽可能的数据比特位数以同时满足比特率和屏蔽要求。

      解码器的复杂程度少的多。它唯一的任务是从已编码的频谱成分中把音频信号合成出来。

      所有的“层”使用同样的分析滤波器段(filterbank)(多相的且具有32个边带)。层-3增加了一个MDCT转换去增强频率的分辨率。

      所有的LAYER在它们的比特流里使用相同的“头信息”,以便支持标准的继承结构。

      所有的LAYER对比特的错误都有相同的敏感性。它们使用一种比特流结构,其中包含有对比特错误更敏感的部分(“头”,“比特分配”,“比例因子”,“边信息”)和不那么敏感的部分(“频组数据”)。
      所有的LAYER都支持把程序关联信息(“辅助数据”)插入到它们的音频数据流里。

      所有的LAYER可以使用32,44.1或48KHZ采样频率。

      所有的LAYER都允许工作在相似的比特率。

      Layer-1: 从 32 kbps 到 448 kbps
      Layer-2: 从 32 kbps 到 384 kbps
      Layer-3: 从 32 kbps 到 320 kbps

      最后两个声明引用自MPEG-1;对于MPEG-2,在采样频率和比特率上有扩展。

    问:全面地看,三个LAYER之间有什么不同?
    答:从LAYER-1到LAYER-3,复杂性提高了(对于编码器主要是真的),总体编码解码延迟增加了,并且,素质也提高了(对于比特率来说的声音质量)。

    问:在音频部分MPEG-1和MPEG-2有什么主要的不同?
    答:MPEG-1和MPEG-2使用了同样的音频编码解码族,LAYER-1、-2和-3。MPEG-2的新音频特性是“低采样率扩展”定位于非常低的比特率和有限带宽需要的应用(新的采样率是16、22.05或24KHZ,比特率扩展低到8KBPS),和一个多通道扩展,定位于环绕立体声应用,可以支持最多5个主音频通道(左,中,右,左环绕,右环绕)和附加的一个给低音信号而设的额外的“低频增强(Low Frequency Extension)”通道。另外,一个“多语言扩展”允许包括高达7个以上的音频通道。

    问:它们互相之间都兼容吗?
    答:或多或少地,是的。除了低采样率扩展外。很显然,一个纯粹的MPEG-1解码器是不能支持新的“半”采样率的。

    问:你说:兼容?对于所有这些额外的音频通道?请解释!
    答:在MPEG-2制订阶段兼容性是个主要论题。主要思想是是用于MPEG-1所定义的那样同样的基本比特流格式,像以前那样主数据区携带两个音频信号(称为L0和R0),而辅助数据区携带多通道扩展信息。为了避免涉及过多的细节,这里主要解释两个条件:“向后兼容”:MPEG-2解码器必须接受任何MPEG-1音频流(包含了一到两个音频通道)。“向前兼容”:MPEG-1解码器应该能够可以解码MPEG-2音频流主数据区中的音频信号。

      “矩阵”可能被用于把环绕信息放进L0和R0中:
      L0 = 左信号 + a * 中间信号 + b * 左环绕信号
      R0 = 右信号 + a * 中间信号 + b * 右环绕信号
      因而,一个MPEG-1解码器能重放一个可理解的所有5个通道信息的混合体。一个MPEG-2解码器使用多通道扩展信息(另外3个音频信号)去重建5个环绕通道。

    问:在你的注解中,你指出在你的代码里使用了一些“非ISO”的扩展,叫MPEG2.5,去深入地改进在非常低比特率下的素质(比如:8KBPS单声道)。你指的是什么?
    答:哦,是的。MPEG-2标准为低采样率扩展允许最地为8KBPS的比特率。在这样低的比特率下,有用的音频带宽无论如何都要受到限制,比如说3KHZ。因而,实际的采样率会被减少,比如说8KHZ。采样率越低,频率分辨率就越高,时间分辨率就越糟,在比特流格式里的控制信息和音频负载之间的比例就越好。就如MPEG-2标准定义了16KHZ作为最低的采样率那样,我们引入了8,11.025,和12KHZ-并且我们把这种扩展命名为“MPEG 2.5”扩展。LAYER-3在8KBPS/8KHZ和16KBPS/16KHZ的表现比8或16KBPS/16KHZ引人注目地好。

    返回目录
     

    Layer-3的高级特性:为什么Layer-3的表现这么出众?

    问:我读了你关于“近似CD”表现的章节,里面谈到获得了4:1的压缩率......能详细一点解释吗?
    答:好的。每一个音频LAYER扩展了层数小于它的的层的特性。简单形式是LAYER-1。它主要是为了DCC(数字录音带)而设计的,使用了384KBPS(称为“PASC”)。LAYER-2被设计为在复杂性和性能之间的一个平衡。它在低到192KBPS的比特率下还保持了很好的声音质量。再低的话,声音质量就变差。LAYER-3从一开始就是为了低比特率而设计的。它在LAYER-2之上加入了一些“高级特性”:频率分辨率高了18倍,使得LAYER-3的播放器比使用极限屏蔽更好地适应量化噪声。只有LAYER-3使用了熵编码(象MPEG视频)去更进一步地减少冗余。只有LAYER-3使用了比特蓄留(象MPEG视频)在临界时刻去抑制赝象,并且LAYER-3可以使用更高级的联合立体声编码机制。

    问:我明白了。对我来说好象LAYER-3是接近于“LAYER-2++”那样的东西。现在,告诉我多点有关声音质量的东西。你们怎样去评定的呢?
    答:今天,除了昂贵的听觉测试外没有折中的办法。在ISO-MPEG修订时,就已经对大量受训的听者做了相当多的国际性的听觉测试。所有这些测试使用了“三组刺激,隐藏参考”方法和“CCIR损伤衡量”去评定声音质量。听的顺序是“ABC”,A=原音,BC=部分原音/部分编码信号随机混合的顺序,听者必须对B和C在1到5分内评估。意思是:5分=完全透明(应该是原来的信号);4分=可察觉,但不讨厌(首个可觉察的差异);3分=轻微讨厌;2分=讨厌;1分=非常讨厌。

    问:听觉测试是一个相当昂贵的任务,真的没有折中方法吗?
    答:是的,至少在今天没有。明天或许不同。要评定知觉编码解码的声音质量,所有传统的“质量”参数(象信噪比,总谐波失真,带宽)都是没用的,因为所有的编码解码方法都会带来噪音和失真,只要不影响察觉到的声音质量。所以,必须进行听觉测试,而且,如果仔细准备和进行,能收到相当可靠的结果。
      然而,Fraunhofer-IIS在开发面向声音质量评定的工具并使之标准化。现在已经有了首个产品,一个很好地支持知觉音频编码的实时分析工具。如果你需要有关噪音屏蔽比(Noise- to-Mask-Ratio, NMR)技术的资料,联系以下E-MAIL地址:nmr@iis.fhg.de

    返回目录

    - THE END-

    欢迎关注微信公众号后私信讨论文章内容!
    本栏目相关
  •  2009-03-21 mp3的无损版本:mp3HD已经推出!
  •  2012-03-14 常见疑问(FAQ)
  •  2008-05-04 Rockbox系列三:关于 Rockbox 的常见疑问
  •  2003-07-06 音频文件格式全介绍
  •  2008-04-02 最流行的无损压缩格式 - FLAC 系列之三:关于FLAC的常见疑问
  •  2001-09-20 Ogg Vorbis测试报告
  •  1999-12-15 MP3 基础知识
  •  2003-01-28 更丰富的网络媒体流感受,来自Windows Media 9
  •  2006-02-09 环绕MP3官方介绍