音频压缩质量对听觉感知影响的研究

时间：2024-05-07

夏阳

（浙江师范大学，浙江金华 321004）

音频压缩质量对听觉感知影响的研究

夏阳

（浙江师范大学，浙江金华 321004）

为了能更好地解决数字音频信号相关存储与传输问题，数据压缩逐渐成为当代数字音频处理中一个重要的研究方向。人耳的听觉对不同压缩比的音频质量有着显著的感知差异，通过不同的实验法组合发现，被试不能分辨出112及以上比特率编码的音频，但是能分辨出96kBit/s、80 kBit/s、64kBit/s、56kBit/s编码的音频，且对80及以下比特率编码的音频表现出厌烦。由此可见，对音频进行编码的最佳方案是112 kBit/s。

音频；MP3；听觉感知

音频作为视听媒体中不可或缺的一部分，具有重要地位。当音频信号传递到人耳时，人耳有一套复杂的听觉感知系统，能够将声音信号转变为大脑的脑电信号，并将接受的复杂信息简化为人们本身所需要的信息。人们对人耳听觉系统信息处理机制的研究涉及多个学科的领域，涵盖了生理学、认知心理学、信息科学、计算机科学、物理声学等。

到目前为止，人们对听觉信息处理机制的研究已经取得了一定的成果，但仍存在一些未解决的问题，例如，在数字音频信号传输时，人们常对于音频的大小和质量产生困惑。众所周知，声音信号的数据量是非常大的，要使实时处理和传输这些庞大的数据成为可能，必须对音频数据信息进行处理。近几年来，在网络流媒体、数字广播、移动设备等领域，数字音频信号处理得到了广泛的应用。为了能更好地解决数字音频信号相关存储与传输问题，数据压缩逐渐成为当代数字音频处理中一个重要的研究方向。

在诸多的压缩标准中，MP3压缩格式以其优越的性能以及品质与算法复杂度的极佳折中，成为当前PC、网络、PDA上最为流行的音频格式。移动设备终端的计算能力和存储容量都是有限的，但是过多地压缩音频质量将会影响到人们对事物整体信息的感知与判断。[1]因此，如何在不影响听觉感知的基础上尽可能大地压缩音频成为研究的一个重要领域。

人耳作为音频信号的接收者，它具有一定的主观性，尽管物理声学信号是客观存在的，但在人的听觉系统反应上会有一定的偏差。因此深入地研究人的听觉系统，研究音高、音强和音色对主观感知的影响是十分必要的。这就是交叉学科——心理声学的研究范畴。

本次实验主要为探寻MP3的不同压缩方式是否对听觉质量产生影响，特选取MP3中常见的一些压缩的比特率，探究编码和未编码的音频片段是否在听觉感知上有差异，探究不同压缩程度的音频是否对人的主观感知有影响，以期选择出最优的MP3压缩方案。

一、基础理论

1.听觉曲线

声音的单位能量由响度来表示，响度由单位面积上的声压比对数来计算。

由于人耳的结构复杂，不同频率的声音传递到耳朵会有不同的共振。图1为人耳在相同响度下对不同频率的声音的共振程度。最下方的虚线表示在安静时人的听觉阈值曲线，上方四条实线分别表示在20、40、60、80分贝下的听觉曲线。从图1可以看出，频率为2kHz～6kHz的声音共振较为明显，可以继而推出人耳对这个频率段的声音较其他频率段为敏感。[2]

图1 听觉曲线以及相同响度下的曲线

2.双耳效应

当人们将一根手指按在一只耳朵上，会感觉到明显的响度变小了。这说明两只耳朵都和响度相关。1947年，Shaw、Newman和Hirsh发现，事实上双耳的听觉阈限要比单耳的听觉阈限低了大约3dB。[3]这个结果的产生不是在实际的室内声源中，而通常是在开放声场的消声室中。同时，有国外的研究还发现，声音射入的方向是影响响度的一个重要因素。图2显示了在标准水平面的不同入射角产生的不同结果。显然，响度本身是受入射方向影响的，对不同的受试者来说，最大变化可达10dB；除此之外还显示了明显的频率相关性，在高频（5kHz）时有更大的效应。

图2 响度入射方向的相关性

响度受到入射方向影响可以理解为两个不同的进程：（1）从声源到耳朵的声学信号转换；（2）事实上的双耳的相加。第一个进程是物理层面的，它包括面对着声源耳朵的压力结构、背对着声源耳朵的头部阴影效应（声影区）等。第二个进程是心理物理层面的，它描述了耳朵受入射影响变化的响度等级如何与双耳的压力响度等级相结合。2006年，Sivonen和Ellermeier利用相加的法则发现，双耳最大的增益达到3dB。[4]

3.音频压缩编码技术

最近二十年来，有不少音频压缩编码技术被制定出来，如MPEG-1 Layer3、MPEG-2 AAC、Dolby实验室的AC-3、微软的WMA等，其中，MPEG音频标准系列占据了音频压缩技术的主流地位。MP3是MPEG-1的副产品，20世纪90年代由德国柏林工业大学的Fraunhofer Gesellschaft研究所研制，是到目前为止最为普及的音频压缩格式。它采用了子带分解、分析滤波器组、转换域编码、熵编码、动态比特分配、非同一量化编码和心理声学分析等技术，支持32kHz、44.1kHz和48kHz采样频率下对16比特PCM信号进行编码，同时，提供单声道、立体声道、两个独立双声道和联合立体声等四种音频声道模式。[5]

图3 MP3编码流程图

图3所示为MP3编码流程。如图所示，音频信号由两种方式进行编码，第一种方式数据先进入多相滤波器，然后经过MDCT变换得出频谱系数；第二种方式数据先进行快速傅立叶变换，然后通过psychoacoustics分析，将psychoacoustics分析后的声学参数和第一种方式输出的频谱系数进行量化和霍夫曼编码；第二种方式进行声学分析后可以得出信号掩蔽比，最终由两者形成相应的比特信息流。

二、编码和未编码的音频对人的听觉感知的影响

1.被试

柏林工业大学声学专业大学生30人，其中男生15名，女生15名，年龄在24～31岁，听力正常。被试单独进入测试房间，在计算机支持下的ABX测试中进行独立的选择和评价。

2.实验材料

实验采用60个音频文件，分为30组，每组2个音频文件，均采用WAV格式（PCM，16 Bit，44.1 kHz）。每组的两个音频各自包含相同的爵士乐片段（大约30秒），其中第一个音频未编码，第二个文件用112 kBit/s的MPEG Layer-3方法进行编码。

3.实验方法

传统的信号检测法无法改变原始音频，因而在本研究中无法采用。为了达到目的，本研究借助计算机的编程实现，采用迫选法（Forced Choice Method）。而迫选法要求被试必须至少听两段音频片段，因此在本研究中采用ABX测试法。

ABX测试方法如下：从两段音乐库中随机抽取一对音频信号A[n]、B[n]（n为不大于原始音乐库中音乐数目的任意正整数），再随机地把A[n]、B[n]分配给A和B，然后在A、B中随机选出一个作为X。测试者可以任意地反复回放A、B或X，最后给出判断：X是A还是B。

4.实验程序

本实验在小型的混响房间的笔记本电脑上运行，电脑装载了ABX软件。被试逐个单独进入房间然后对音频用ABX方法进行判断。实验采用STAX Lambda SR-202-Stereo专业测试耳机。在实验过程中允许被试自由调节音频的响度。每个被试测试18次。

5.实验参数

一次有n次过程的ABX测试等于一个n阶p=0.5的伯努利实验（Bernoulli Experiment）。概率k和n的关系如下所示：

图4中显示了n=18时的离散概率。当时，适用以下公式：

以此类推所求的概率为：

图4 n=18时的离散概率

当n=18以及p=0.5时得到以下数值：5%的波动范围应该被看作是一个明显差异的界限。在表1中，有超过13次的尝试都在5%以内，只有5次的偶然命中率超过了这个数值（见图4）。

表1 不同次数下的离散概率

6.实验结果与分析

对实验结果进行描述性统计分析发现：有6名被试达到13次及以上的正确次数，而其余24名被试均未达到标准（见表2）。因此可见，即仅有20%的被试能正确分辨两者的区别，而其余80%的被试未能正确分辨两者的区别。

对实验结果进行单样本T检验发现：T=-5.572，P＜0.001，即30名被试的平均正确次数11.20与正确次数13之间存在显著性差异。由此可见，被试并不能分辨出112 kBit/s编码的音频。

表2 ABX测试的正确率

三、不同压缩质量的音频对人的听觉感知的影响

1.被试

柏林工业大学声学专业大学生40人，其中男生20名，女生20名，年龄在25～32岁，听力正常。被试单独进入测试房间，在计算机支持下的ABC/HR测试中进行独立的选择和评价。?

2.实验材料

实验采用在第一个实验中使用过的爵士乐片段（s0），将其进行编码，形成8个比特率的MPEG Layer-3编码片段：320kBit/s（s1），224kBit/s（s2），160kBit/s（s3），112kBit/s（s4），96kBit/s（s5），80kBit/s（s6），64kBit/ s（s7）和56kBit/s（s8），共18组，每组9个音频文件。

3.实验方法

本实验采用ABC/HR方法。ABC/HR测试方法如下：在程序上呈现三个测试刺激源（a，b，c），其中参数刺激已被标明，同时提供两个未标识的刺激材料，这两个未标识的刺激材料中一个是重复的参数，一个是已经改变的版本。在测试中，被试需要确定，这两个未标识的刺激材料中的哪一个是已经改变的版本。除此之外，被试还需要测主观的干扰度，这主要通过一个控制器来定量确定（5－感觉不到；4－感觉到，但不令人厌烦；3－稍微有点令人厌烦；2－令人厌烦；1－很令人厌烦讨厌）。如果被试选择已经改变的版本，其主观评判的值为正值；如果被试选择未被改变的版本，其主观评判值为负值。

4.实验程序

本实验在小型的混响房间的笔记本电脑上运行，电脑装载了ABC/HR软件。被试逐个单独进入房间然后对音频用ABC/HR方法进行判断。实验采用STAX Lambda SR-202-Stereo专业测试耳机。每个被试测试162次。

5.实验结果与分析

对实验结果进行描述性统计分析发现：100%的被试能够在两个未编码的刺激中识别出56 kBit/s的音乐、64 kBit/s的音乐、80kBit/s的音乐；85%的被试能够在两个未编码的刺激中识别出96kBit/s的音乐；而112kBit/s的音乐、160Bit/s的音乐、224kBit/s的音乐、320kBit/s的音乐识别正确率分别为18%、13%、10%、5%。

将112kBit/s、160kBit/s、224kBit/s、320kBit/s音乐的实验结果进行单样本T检验发现：T（112kBit/s）=-4.130；T（160kBit/s）=-6.430，p＜0.005；T（224kBit/s）=-9.579，p＜0.005；T（320kBit/s）=-11.695，p＜0.005；即40名被试的平均正确次数M（112kBit/s）=11.25，M（160kBit/s）=10.88，M（224kBit/s）=9.92，M（320kBit/s）=9.42与正确次数13之间均存在显著性差异。由此可见，被试并不能分辨出112 kBit/s、160kBit/s、224kBit/s、320kBit/s编码的音频。

将96kBit/s的音乐的实验结果进行单样本T检验发现：T（96kBit/s）=1.010，p＞0.01；即40名被试的平均正确次数M（96kBit/s）=14.50与正确次数14之间并不存在显著差异。由此可见，被试能分辨出96 kBit/s编码的音频。

进一步对平均值进行分析发现：在80 kBit/s达到了标度值“稍微有点令人厌烦”，由此可以确定质量的损害；在96kBit/s差异度的平均值为3.56，在标度值“感觉到，但不令人厌烦”附近，由此可以看出，在这个标度值上仅仅有一个变化，但是没有质量的损害生成（见表3）。

表3 不同比特率的音乐

四、分析与讨论

音频压缩技术，其实质就是对经过采样量化的PCM信号进行处理，力求压缩后的音频数据量最小化，并同时达到所谓的“透明音质”，即解码后的输出信号与原先的输入信号不可分辨。本实验发现，被试不能分辨出112、224、320比特率编码压缩的音频，但是能分辨出96kBit/s、80 kBit/s、64kBit/s、56kBit/s编码压缩的音频，且对80及以下比特率编码的音频表现出厌烦。由此可见，经过112、224、320比特率编码压缩的音频，都达到了“透明音质”的标准，均为音频压缩编码可以采用的比特率。但是，音频编码的中心思想为用最小的比特存储声音信号，使之达到透明声音信号标准。[6]因此，在音频编码压缩上应该有个最佳压缩方案，即达到透明声音信号标准的最小比特值，本实验发现，这个值为112 kBit/s。

[1]蒋学鑫.MP3实时编解码系统的研究与开发[D].电子科技大学，2007，（4）.

[2]Weinzierl S，Ellermeier W，Hellbrück J.Handbuch der Au⁃diotechnik[M].Springer Verlag，2007，（42）.

[3]Shaw W A，Newman E B，Hirsh I J.The difference between monaural and binaural thresholds[J].Journal of Experimental Psy⁃chology，1947，（37）：229－242.

[4]Sivonen VP，Ellermeier W.Directional loudness in an an⁃echoic sound field，head related transfer functions，and binaural summation[J].J Acoust Soc Ame.2006，（119）：2965－2980.

[5]李琳.音频感知编码模型及关键技术的研究[D].中国科学技术大学，2008，（5）.

[6]李琳琳.数字音频感知编码的心理声学模型[J].经验与交流，2008，（6）.

夏阳（1984—），男，浙江金华人，浙江师范大学助教，研究方向为音频技术、影视声音。

责任编辑李杰杰