围绕着音频压缩,音频编码和音频解码这些名词有着大量的混乱。这一章节可以在音频译码(又一个这样的名词)是关于什么的这个问题上给你一个总览。
在音频压缩出现之前,高质量的数字音频数据要占据大量的硬盘空间去储存(或通道带宽去传输)。
让我们来看看一个很短的例子。你想对你喜欢的一分钟歌曲进行采样并储存到你的硬盘上。因为你想要CD质量,所以你以44.1KHz的采样频率,立体声,每个采样值16比特的方式进行采样。
44.1KHz意味着每秒钟有44100个采样值从你的声音卡(或输入文件)里出来。乘以2是因为你有两个通道。再乘以2是因为每个采样值有两个字节(这是16比特的意思)。那首歌总共会占据:
44100 (样本值/秒) * 2(两个通道)* 2(每样本值两个字节)*60(每分钟60秒) =10584000 (字节)
即大约10MBYTES的硬盘空间。如果你想从INTERNET上下载这首歌的话,使用一个普通的28.8KBPS的MODEM,将会用你:
10584000(字节)* 8(8比特/每字节)/(28800(比特/每秒)* 60(秒/每分钟)) = 49 分钟
即至少要49分钟,还没有算上传输开销和线路不畅,才仅能下载一分钟的立体声音乐!
数字音频编码,在本文里,也称为数字音频压缩,是减少音频数据所需的存储空间(或通道带宽)的艺术。现代知觉音频编码技术(象MPEG LAYER-3或MPEG-2AAC)开拓了人类耳朵的特性(对声音的知觉)而获得大约1:12的压缩率而只有很少或根本没有感觉得到的音质损失。
因而,这样的机制对于高质量低比特率应用来说是关键技术,象CD-ROM游戏的音轨,固化声音存储体,INTERNET音频,数字音频播放系统诸如此类等。
音频压缩实际上由两个部分组成。第一部分,称为编码,把存放在波形文件里的数字音频数据转换为高度压缩的形式,称为比特流(或者叫已编码音频数据)。要在你的声音卡上播放比特流时,你需要第二部分,称为解码。解码把比特流重建为波形文件。
最高的编码效率是通过开发信号冗余(exploiting signal redundancies)和基于人类听觉系统模式的频域不相关(irrelevancies
in the frequency domain)算法而赢得的。
所有的编码器使用相同的基本结构。编码机制可以描述为“知觉噪音成型”(perceptual noise shaping)或“知觉边带/变换编码”(perceptual
subband / transform coding)。编码器通过计算滤波器段(filterbank)分析音频信号的频谱组成并应用精神听觉(psychoacoustic)模式来估计仅仅可以注意得到的噪音电平。在其量化和编码阶段,编码器尝试分配尽可能的数据比特位数以同时满足比特率和屏蔽要求。
解码器的复杂程度少的多。它唯一的任务是从已编码的频谱成分中把音频信号合成出来。
所有的“层”使用同样的分析滤波器段(filterbank)(多相的且具有32个边带)。层-3增加了一个MDCT转换去增强频率的分辨率。
一直以来都没有明确地指出过:当你编码然后再解码而得到的东西跟你原来的声音文件并不一样!或者说,所有多余的东西(更加准确的说:多余的和不相关的声音信号部分)都已经压榨掉了。重建后的WAVE文件与原来的WAVE文件不同,但听起来一样——或多或少,与应用了多大压缩率于其上有关。
因为压缩率是比较难以测量,专家们在谈及压缩的强度时使用术语比特率。比特率表示一秒的声音数据会消耗的平均BITS的数量。这里的通常单位是KBPS,即每秒1000
BITS.
在CD上的数字音频信号,比特率是1411.2KBPS。使用了MPEG-2ACC,如同CD音质的声音质量可以达到96KBPS的比特率。
- THE END -
本站微信订阅号:
本页网址二维码: