电脑与声音

作者：Sender Su 来源：原创内容，刊于《学生电脑》发布日期：2000-05-02 最后修改日期：2008-02-14

看看声音

声音是听的，怎么能看？别急，听我慢慢道来。同学们可以在物理课里了解到，声音是一种波，波是起伏的，具有周期性和一定的幅度。周期性表现为频率，控制音调的高低。频率越高，声音就越尖，反之就越沉。比如说男生的声音都比较低沉，就是因为男生的声带较宽，发出的声音主要集中在低频部分的缘故。图1和图2就分别是1000Hz和100Hz的声音波形图，这两段声音的长度都是0.01秒。

图1　　图2

幅度控制的就是声音的音量了，幅度越大，声音越响，反之就越弱。图3中的波形也是1000Hz 0.01秒，但幅度与图1不同。说说看，哪个声音更大？

图3

电脑发声

我们说话是靠声带的振动，电脑中产生声音（电源风扇或硬盘、光驱的噪音不在其内）是通过声卡产生特定的电信号，从而控制喇叭发出声音。电脑的声音由于产生机制的不同而分为两种：合成音乐和数字声音。

合成音乐指的是根据乐谱去演奏乐器的声音而组合形成的音乐。目前的主流声音卡都是使用波表(Wave table)合成法，也就说使用真正乐器的数字声音来演奏乐谱。影响合成音乐的质量因素主要有：波表数据的真实性、可以同时演奏乐器的通道数（复音数）、是否支持合唱和混响等。在后面将要提到的MIDI就是合成音乐的标准。

数字声音是指将人听到的声音（又称为模拟声音）进行数字化转换（量化）后得到的数据。这一转换过程在使用计算机进行录音时由声卡自动完成，又称为模/数转换。但由于扬声器只能接受模拟信号，所以声卡输出前要还要把数字声音转换回模拟声音，也即数/模转换。

声音质量

影响数字声音质量的主要因素有三个：采样频率、数字量的位数（简称量化位数）以及声道数。

采样频率决定的是声音的保真度。具体说来就是一秒钟的声音分成多少个数据去表示。可以想象，这个频率当然是越高越好。频率以kHz（千赫兹）去衡量。44.1kHz表示将一秒钟的声音用44100个采样样本数据去表示。目前最常用的三种采样频率分别为：电话效果（11 kHz）、FM电台效果（22 kHz）和CD效果（44.1 kHz），市场上的非专业声卡的最高采样率为48kHz，专业声卡可高达96kHz或以上。一般人的耳朵能听到的频率范围是从20Hz到20kHz。而将声音数字化之所以需要44.1kHz是因为根据采样原理，采样频率至少是播放频率的两倍才足以在播放时正确还原。再考虑到有些乐器发出的高于20kHz的声音对人也有一定的作用，所以定在44.1kHz。

量化位数表示的是声音的振幅，决定的是音乐的动态范围，所谓动态范围是波形的基线与波形上限间的单位。简单地说，位数越多，音质越细腻。量化位数主要有8位和16位两种。8位的声音从最低到最高只有28=256个级别，16位声音有216=65536个级别。专业级别使用24位甚至32位。

下面是两幅关于声音量化的说明图：

声道数表明在同一时刻声音是只产生一个波形（单声道）还是产生两个波形（立体声双声道）。顾名思义，立体声听起来比单声道具有空间感。

声音数据量一般都被称为海量数据。这是因为对音质要求越高，数据量就越大。大家平时听的CD的质量是44.1kHz、16位的立体声音乐，一分钟这种质量的声音就需要10M字节的存储空间。因此，需要采用压缩技术，才能方便地进行声音的传送。比如现在非常流行的MP3，就是一种压缩技术。这就涉及到了声音的处理。

数字声音处理

数字声音的处理主要分为三个方面：压缩、编辑和效果处理。

我们刚才谈到的MP3技术就是对数字声音的压缩处理的一种。目前有很多种对声音进行压缩的方法，各有不同的应用范围，比如程控交换电话中的是ADPCM（差分脉冲编码调制），手机中用的是GSM，而对于音乐，用的就是MP3了。

压缩的目的就是降低数据量，以便于传输，这一过程称为编码。而在播放时，便需要有一个解码的过程，将压缩了的数据还原为可以直接播放的数字声音。比如现在非常流行的WINAMP，就是从播放MP3这一个功能起家的。

声音的编辑常常是进行分段、组合、首尾处理等，类似于我们对文本进行编辑。效果处理也常常放在编辑操作中同时进行。常用的处理有回声处理、倒叙处理、音色效果处理等等。在这里给大家介绍一个适合入门者使用的中文免费软件：WaveCN。大家可以到www.wavecn.com去下载。

音质的判断

在对数字声音进行处理时，都希望得到效果好的声音，可究竟怎么样才算效果好呢？除了前面提到的那几个基本因素之外，还有一些主观上的音质判断，比如清晰与浑浊、圆润与发毛、临场感、立体感等等。

音质判断一般都需要受过专业训练的人才能掌握，不过也有普通人也可以明白的，比如立体感。立体感就是听者能否根据声音的变化去判断音源的位置。对于游戏玩家来说，游戏中的声音是否具有立体感是非常重要的。现在许多流行的游戏都在这方面狠下工夫，力求给玩家营造置身其中的感觉。比如Need For Speed系列，很早就已经支持Dolby环绕立体声，增加驾驶的真实感；又如Delta Force这一类第一人称射击游戏通过支持Direct Sound 3D技术来使得玩家可以通过敌人开枪的声音来判断敌人的方位、子弹的来路（否则就死得不明不白了）。

在这里介绍了这么多，其实只是电脑声音这门学科中的一小部分，在计算机领域里声音的应用是非常广泛的，包括语音识别、语音合成等等，以后慢慢就会接触到的了。

未经许可，不得转载。

本栏目相关

2008-11-10 Linux 音频 API 指南

2003-07-06 音频文件格式全介绍

2007-02-12 音频术语中常见的“采样频率”对录音效果有什么影响

1999-12-15 MP3 基础知识

2000-05-02 电脑与声音

1999-06-01 如日中天的MIDI

2005-03-01 自我音乐，自己动手 - 腾挪跌宕，变化万千 - 音效篇（ 2 ）高级处理

2001-07-23 QuickTime 5, 新的里程碑

2005-12-04 Digital Radio Mondiale 世界数字广播