音频原理

1.什么是声音?

在中学物理中,我们知道声音是物体振动产生的声波。声音通过介质(空气、固体、液体)传入人耳,驱动听小骨振动。经过一系列的神经信号传递,被人感知。

声音是一种波。当物体振动时,会改变介质(如空气)的密度,从而形成相互交汇的纵波。

既然声音是一种波,我们可以用图表的形式来表达它。

给定空间中的某一点,该点的空气密度随时间变化如下:

示波图

下图显示了周期为0.002秒、频率为500赫兹的正弦波。

频率(音调):声音在1秒内周期性变化的次数。

人耳的听觉范围是20Hz-20kHz。低频声音沉闷沉重,高频声音尖锐刺耳。20kHz以上的声音是超声波。

振幅(响度):声音的大小。

有时候,我们用分贝(dB)来描述声音的大小。值得注意的是,dB是一个比值,一个数值,没有单位标签。(功率强度比的对数的10倍)

2.声音收集和存储

采样是指将时间域或空间域的连续量转化为离散量的过程。

声音采样通常使用麦克风等设备将声音信号转换成电信号,然后通过模数转换器将电信号转换成一系列用1和0表示的二进制数字(数字信号)。

我们每秒钟对声音进行数万次采样,得到数万个按时间顺序排列的二进制数。因此,我们将不断变化的声音转换成计算机可以存储和识别的二进制数。

如果把音频用图像的形式表示,图像如下:(横轴是时间,纵轴是幅度,两个图像分别代表左右声道。由于声音的频率很高,图像中的信号不是正弦的,而是固体的。)

2.1采样频率

采样频率是指录音设备在一秒钟内对声音信号采样的次数。采样频率越高,声音还原就越真实自然。

目前主流的采样频率有8KHZ、22.05KHz、44.1KHz、48KHz。

8KHZ是电话通话的音质,22.05 KHz是调频广播的音质,44.1KHz是CD的理论音质。48KHz是人耳能够分辨的最高采样频率。

直观理解:连续的声音如下

一种声音

我们以相等的时间间隔采样。

最后,我们实际采样的音频如下。

从下图可以看出,采样频率越高,我们得到的音质越好。

2.2量化位数

我们不可能时刻获得声音的强度,所以以相等的时间间隔对声音进行离散采样。同样,采样得到的数据也不可能无限精确,比如数字是63.222,这是无法储存在电脑里的。所以采样得到的数据也是离散的。

量化位数是音频文件的另一个参数。量化位数越大,声音质量越高。常用的量化位数是8,16和32。

量化数是指用几个二进制数来存储采样得到的数据。量化位数为8,表示数据以8位二进制数存储,如000101111。

还是前面的例子,有一个正弦声波,假设量化比特为3,也就是存储的数据只有000/001/010/011/100/1065438。

现在还是等距采样,只是采样点只能落在最近的红线上。

此时各点纵坐标的值只有2的三次方,也就是只有8可能。

从下图可以看出,量化位数越大,音效越好。

另外,值得注意的是,用不同量化比特存储的数据不能直接比较。

例如,4位量化位存储的十进制数111是15,8位量化位存储的十进制数100000是64。不是因为64 & gt15,所以后者的声音比前者大。相反,它们应该除以它们的总范围并进行比较。

前者的声音比后者大。

2.3?频道号

声道分为单声道和双声道。

单声道是指左右耳听到相同的声音。

两个渠道两个耳朵听到的信息不一样。在声音时间、采样频率、比特率相同的情况下,双声道文件的存储空间是单声道文件的两倍。但会给人空间感,游戏和电影中经常使用双通道,可以达到“听声音,辨位置”的效果。

声音示例如下:

3.为什么每个人的声音都不一样?

3.1人类发声原理

当肺部呼出空气时,当气流通过狭窄的声门时,声带粘膜会像波浪一样波动,使附近的空气介质振动形成密集的波,即声波。这些声波会在咽喉、口腔、鼻腔、鼻窦发出声音并放大音量,然后受到嘴唇、牙齿、舌头等器官的影响,被修正成每个人每天说话的声音。如果一个人的声音只靠声带振动发声,没有* * *腔放大声音,声音会很小。* *腔除了放大声音外,还有吸收噪音的作用,让音质更加理想。

声带就像小提琴的琴弦一样,可以通过调节张力和长度来改变声音的频率(即音高)。张力会受到声带肌肉层和声门大小的影响。随着声门变小,声带的张力变大,产生更高频率的声音。另外,男女声带的长度会有所不同,男性大约为17 ~ 25mm,女性大约为12.5 ~ 17~25mm。儿童和女性声带较短,振动较快,发音较高;男性声带更长更粗,可以解释为什么普通成年男性的声音更低,更难发出高音。

3.2是什么决定了每个人的声音特征?

音高、力度、长短、音色的不同决定了每个人声音的不同。

音高:音高由基频决定。

基频:刚好对应声带振动的速度,代表声音的音高。基频越高,声带振动越快,声音越尖锐。一般来说,在干净的语音频谱中(没有咆哮,没有与其他声音混合),最低的明显峰值代表基频,基频的整数倍频率对应的峰值就是其* * *振动产生的谐波。基频通常用频率值(f)或周期值(t)来表示。

音调:音调是由泛音决定的。

泛音:除了音高是整个发音体发出的最长的音外,物体的所有部分(二分之一、三分之一、四分之一等。)产生泛音,泛音的波长通常是音高的整数分之一(如λ/2、λ/3、λ/4等。).泛音的组合决定了一个特定的声音,能让人明显感受到音高的强度。

参考资料:

1.数字音频原理/档案/208

2.声带的结构和发声原理,/p/64594731