音频原理

1.什么是声音？

在中学物理中，我们知道声音是物体振动产生的声波。声音通过介质(空气、固体、液体)传入人耳，驱动听小骨振动。经过一系列的神经信号传递，被人感知。

声音是一种波。当物体振动时，会改变介质(如空气)的密度，从而形成相互交汇的纵波。

既然声音是一种波，我们可以用图表的形式来表达它。

给定空间中的某一点，该点的空气密度随时间变化如下:

示波图

下图显示了周期为0.002秒、频率为500赫兹的正弦波。

频率(音调):声音在1秒内周期性变化的次数。

人耳的听觉范围是20Hz-20kHz。低频声音沉闷沉重，高频声音尖锐刺耳。20kHz以上的声音是超声波。

振幅(响度):声音的大小。

有时候，我们用分贝(dB)来描述声音的大小。值得注意的是，dB是一个比值，一个数值，没有单位标签。(功率强度比的对数的10倍)

2.声音收集和存储

采样是指将时间域或空间域的连续量转化为离散量的过程。

声音采样通常使用麦克风等设备将声音信号转换成电信号，然后通过模数转换器将电信号转换成一系列用1和0表示的二进制数字(数字信号)。

我们每秒钟对声音进行数万次采样，得到数万个按时间顺序排列的二进制数。因此，我们将不断变化的声音转换成计算机可以存储和识别的二进制数。

如果把音频用图像的形式表示，图像如下:(横轴是时间，纵轴是幅度，两个图像分别代表左右声道。由于声音的频率很高，图像中的信号不是正弦的，而是固体的。)

2.1采样频率

采样频率是指录音设备在一秒钟内对声音信号采样的次数。采样频率越高，声音还原就越真实自然。

目前主流的采样频率有8KHZ、22.05KHz、44.1KHz、48KHz。

8KHZ是电话通话的音质，22.05 KHz是调频广播的音质，44.1KHz是CD的理论音质。48KHz是人耳能够分辨的最高采样频率。

直观理解:连续的声音如下

一种声音

我们以相等的时间间隔采样。

最后，我们实际采样的音频如下。

从下图可以看出，采样频率越高，我们得到的音质越好。

2.2量化位数

我们不可能时刻获得声音的强度，所以以相等的时间间隔对声音进行离散采样。同样，采样得到的数据也不可能无限精确，比如数字是63.222，这是无法储存在电脑里的。所以采样得到的数据也是离散的。

量化位数是音频文件的另一个参数。量化位数越大，声音质量越高。常用的量化位数是8，16和32。

量化数是指用几个二进制数来存储采样得到的数据。量化位数为8，表示数据以8位二进制数存储，如000101111。

还是前面的例子，有一个正弦声波，假设量化比特为3，也就是存储的数据只有000/001/010/011/100/1065438。

现在还是等距采样，只是采样点只能落在最近的红线上。

此时各点纵坐标的值只有2的三次方，也就是只有8可能。

从下图可以看出，量化位数越大，音效越好。

另外，值得注意的是，用不同量化比特存储的数据不能直接比较。

例如，4位量化位存储的十进制数111是15，8位量化位存储的十进制数100000是64。不是因为64 & gt15，所以后者的声音比前者大。相反，它们应该除以它们的总范围并进行比较。

前者的声音比后者大。

2.3?频道号

声道分为单声道和双声道。

单声道是指左右耳听到相同的声音。

两个渠道两个耳朵听到的信息不一样。在声音时间、采样频率、比特率相同的情况下，双声道文件的存储空间是单声道文件的两倍。但会给人空间感，游戏和电影中经常使用双通道，可以达到“听声音，辨位置”的效果。

声音示例如下:

3.为什么每个人的声音都不一样？

3.1人类发声原理

当肺部呼出空气时，当气流通过狭窄的声门时，声带粘膜会像波浪一样波动，使附近的空气介质振动形成密集的波，即声波。这些声波会在咽喉、口腔、鼻腔、鼻窦发出声音并放大音量，然后受到嘴唇、牙齿、舌头等器官的影响，被修正成每个人每天说话的声音。如果一个人的声音只靠声带振动发声，没有* * *腔放大声音，声音会很小。* *腔除了放大声音外，还有吸收噪音的作用，让音质更加理想。

声带就像小提琴的琴弦一样，可以通过调节张力和长度来改变声音的频率(即音高)。张力会受到声带肌肉层和声门大小的影响。随着声门变小，声带的张力变大，产生更高频率的声音。另外，男女声带的长度会有所不同，男性大约为17 ~ 25mm，女性大约为12.5 ~ 17~25mm。儿童和女性声带较短，振动较快，发音较高；男性声带更长更粗，可以解释为什么普通成年男性的声音更低，更难发出高音。

3.2是什么决定了每个人的声音特征？

音高、力度、长短、音色的不同决定了每个人声音的不同。

音高:音高由基频决定。

基频:刚好对应声带振动的速度，代表声音的音高。基频越高，声带振动越快，声音越尖锐。一般来说，在干净的语音频谱中(没有咆哮，没有与其他声音混合)，最低的明显峰值代表基频，基频的整数倍频率对应的峰值就是其* * *振动产生的谐波。基频通常用频率值(f)或周期值(t)来表示。

音调:音调是由泛音决定的。

泛音:除了音高是整个发音体发出的最长的音外，物体的所有部分(二分之一、三分之一、四分之一等。)产生泛音，泛音的波长通常是音高的整数分之一(如λ/2、λ/3、λ/4等。).泛音的组合决定了一个特定的声音，能让人明显感受到音高的强度。

参考资料:

1.数字音频原理/档案/208

2.声带的结构和发声原理，/p/64594731