当前位置:首页 期刊杂志

基于LPC的混响时间估计算法*

时间:2024-07-28

刘兴亮,姚剑敏,郭太良

(福州大学 物理与信息工程学院,福建 福州 350116)

基于LPC的混响时间估计算法*

刘兴亮,姚剑敏,郭太良

(福州大学 物理与信息工程学院,福建 福州 350116)

准确计算混响时间需要知道房间的尺寸、墙壁的吸声系数等。经典的混响时间盲估计方法可以避免这些条件,但需要事先提供一个冲激信号。文章对经典算法进行了改进,提出了一种基于线性预测的混响时间盲估计算法。首先,将采集到的语音通过一个低阶的线性预测滤波器来获得线性预测残差信号;其次,计算残差信号的自相关,并选取合适的部分;最后,将选取的部分通过一个最大似然估计器,提取参数计算混响时间。文章还提出了一种改进的二分法来求解最大似然估计方程。实验证明,与经典算法相比,所提出算法估计的混响时间精度更高,且更具有实时性。

线性预测编码滤波器;线性预测残差信号;最大似然估计;无偏自相关函数

0 引言

混响是声音在密闭空间中经过内部障碍物等反射面多次连续反射产生的,它可使语音的质量和清晰度恶化,导致语音处理系统(电话会议、自动语音识别系统等)性能下降。在许多重要的应用中(例如助听器以及免提电话),一种改善系统性能的策略就是估计房间声学参数(主要是混响时间),同时利用最合适的方法消除混响[1-2]。另外,在许多语音处理应用中混响时间也需要计算[3-6]。

混响时间是房间声学的一个重要特征,它实质是描述房间冲激响应(RIR)的特征。声源停止发声后,声能密度的空间均值衰减60 dB所需时间定义为混响时间。目前,估计混响时间的方法主要有三种,分别是基于时域RIR的方法[7]、基于房间尺寸以及障碍物吸声系数的方法[8]和基于语音的盲估计方法[9-12]。RIR会随着声源位置、房间温度和障碍物位置的变化而变化,计算比较困难;房间的大小以及墙壁的吸声系数实际也不易获取。还有通过检测声源停止发声后声音能量衰减来衡量[7],这种方法需要提供一个冲激信号。因此,以上方法无法应用到实时语音处理系统中去。

混响时间盲估计的方法发展至今,出现了许多不同的思路。利用逆调制传输函数滤波器[10]来存储能量包络的方法计算量大,不满足实时性要求;基于时频域房间衰减模型[13]的方法对语音的长度有要求;一些基于最大似然估计的方法不适用于噪声环境,还有一些方法需要语音中的话语之间要有一定长度的停顿。

针对经典混响时间盲估计方法计算复杂、精度不高且不满足实时性要求的问题,本文提出了一种基于线性预测的混响时间盲估计算法,不仅使得精度提高,还满足实时性要求。

1 混响时间估计算法模型及问题分析

1.1 混响时间计算公式

混响的理论是由Sabine在1900年提出来的,他通过大量的实验,得到混响时间RT60的计算公式为:

(1)

其中,V表示房间的容积,A表示房间的吸声量。

Sabine的理论开启了建筑声学的研究热潮,人们按照声学原理设计剧院和音乐厅取得了很好的效果。Sabine的理论意义巨大,但是也有局限性。对于当前热门的人工智能来说,机器的位置是任意的,而快速地获取房间的尺寸以及障碍物的吸声系数是不现实的。

1.2 经典混响时间盲估计算法

经典混响时间盲估计算法是由Ratnam[11]等人在2003年提出来的。该算法首先模拟房间混响,得到近似的房间冲激响应函数,然后利用最大似然估计获取相关参数,最后计算混响时间。

混响时间为200 ms的房间冲激响应波形如图1所示。

大多数情况下,RIR可以根据Polack模型表示成一种非平稳随机过程[14]:

(2)

经典算法通过冲激信号模拟房间冲激响应,然后通过最大似然估计来求解参数a的值。该算法的复杂之处主要集中在房间冲激响应估计部分和最大似然估计部分。算法开始需要提供一个冲激信号,而冲激信号在现实环境下是不易获取的,对于一个实时系统来说,实时地产生冲激信号是不现实的。同时,经典算法利用牛顿迭代法来求解最大似然估计问题,其对初值要求比较高且局部收敛,计算复杂度高。

1.3 本文提出的基于线性预测的混响时间盲估计算法

为了避免算法对冲激信号的依赖,同时减小算法计算的复杂度,本文对经典算法进行了改进。算法的整体框架不变,对房间冲激响应估计部分和最大似然估计部分进行了改进。算法的思路是从采集到的语音信号(非冲激信号)中提取估计RT60所需要的信息,将采集到的语音通过线性预测滤波器得到线性预测残差信号,再计算残差信号的自相关,帧平均后选取合适的部分作为最大似然估计的输入,估计参数a,最后求解混响时间。算法的流程如图2所示。

1.3.1 线性预测残差信号模型分析

假设噪声为零,混响环境下接收到的语音可以表示为:

x[n]=s[n]*h[n]

(3)

其中,x[n]、s[n]、h[n]分别表示麦克风采集到的语音信号、源语音信号以及时不变房间冲激响应。

语音信号s[n]可以表示为一个激励信号e[n]和一个声道滤波器v[n]的卷积[16],所以式(3)可以表示为:

x[n]=e[n]*v[n]*h[n]

(4)

声道的影响可以通过线性预测滤波器(全极点滤波器)来消除[16]。LPC的系数可以通过计算信号的相关性来获取,同时假设RIR滤波器是一个非相干过程,当LPC滤波器的阶数很小时(32ms的帧长时设置为10),它可以近似移除混响语音信号中的声道滤波器的影响。因此,假设LPC滤波器能够将x[n]中的v[n]移除,线性预测残差信号可以近似表示为:

(5)

=(e[n]*h[n])*(e[-n]*h[-n])

=e[n]*e[-n]*h[n]*h[-n] =Ce[n]*Ch[n]

(6)

其中Ce[n]和Ch[n]分别是e[n]和h[n]的自相关函数。h[n]的自相关以及它与e[n]自相关卷积情况如图3所示,其中e[n]用一帧残差信号来表示。

由图3可以观察到 :

(7)

混响时间为300ms的语音处理后截取的合适部分如图5所示。这部分做为最大似然估计的输入,最终估计出的混响时间是292ms,非常靠近300ms。

1.3.2 最大似然估计模型

(8)

(9)

(10)

(11)

剩下的问题就是如何解方程组。

2 一种新的快速求解最大似然估计方程组的方法

利用牛顿迭代法求解最大似然估计方程组复杂度较高且局部收敛,本文提出了一种二分法,可以快速求解方程。RT60的范围设置为0.1 s~3 s,时间精度设置为0.01 s,方法的流程如下:

(1)初始化

T60_min=0.1;T60_max=3;t_accur=0.01;

Num_iter=log2((T60_max-T60_min)/t_accur);

t_accur表示时间精度,Num_iter表示迭代的次数。

(2)迭代

T(i)=(T60_max+T60_min)/2

a(i)=exp (-6.91/T(i))

g(i)>0 then T60_min=T(i)

g(i)<0 then T60_max=T(i)

该方法的优点是不用初始化a,能够快速收敛。

3 实验结果

实验所使用的混响语音信号是利用纯净语音信号与RIR卷积合成的。其中,纯净语音信号取自TIMIT数据库,采样频率为16 kHz;RIR是根据image方法[17]来构建的。构建的RIR的混响时间范围为0.1 s~1 s,对应的房间大小从2.5 m×3.5 m×2 m到6 m×6 m×4 m,同时对麦克风和声源的位置进行了相应的设定。将本文算法与经典方法进行对比。利用这两种方法分别对混响时间为0.1 s~1 s的10组语音信号进行估计。本次实验采用的窗长度为300 ms。本文算法与经典算法估计出的混响时间与真实值之间的关系如图6所示。由图6可知,本文算法的混响时间估计值明显与混响时间实际值更加贴近,Ratnam方法对混响时间的估计值误差较大,且越偏越远。

算法若满足实时性的要求,必须减少对语音长度的依赖。为了验证算法的实时性能,从同一混响语音信号中截取长度为1 s~10 s的语音段,利用它们来估计混响时间,并分析混响时间的估计误差,误差计算公式如下:

(12)

由图7可以看出,当语音长度大于等于5s时,相对误差较小甚至趋于稳定;语音长度在3s~5s之间时,误差也在可接受范围之内。这种效果基本满足实时性要求。

4 结论

本文提出了一种基于线性预测的方法来估计混响时间,该算法直接利用接收到的语音作为系统输入,不用再另外提供冲激信号。利用合适的窗函数对接收到的信号进行分帧,然后利用低阶线性预测编码滤波器来获取残差信号。计算每一帧残差信号的自相关,然后求平均,消除信道以及其他因素的影响。本文还提出了一种快速求解最大似然估计方程组的方法,使得算法效率更高。利用本文算法估计的混响时间误差不超过0.1 s,相对于经典的混响盲估计算法,精度提高了至少15%,且算法对于语音长度的要求也不高,3 s~5 s的语音相对误差已经很小,满足实时性的要求。本研究为后续语音混响消除做了铺垫。

[1] COUVREUR L, COUVREUR C. Blind model selection for automatic speech recognition in reverberant environments[J]. Journal of Signal Processing Systems, 2004, 36(2):189-203.

[2] GAMMAL J S, GOUBRAN R A. Combating reverberation in speaker verification[C]. IEEE Instrumentation & Measurement Technology Conference, 2005:687-690.

[3] HEINRICH W L. LÖLLMANN (EURASIP Member), VARY P. Low delay noise reduction and dereverberation for hearing aids[J]. Journal on Advances in Signal Processing, 2009, 2009(1):1-9.

[4] HABETS E A P, GAUBITCH N D, NAYLOR P A. Temporal selective dereverberation of noisy speech using one microphone[C]. IEEE International Conference on Acoustics, 2008:4577-4580.

[5] MOSAYYEBPOUR S, SHEIKHZADEH H, GULLIVER T A, et al. Single-microphone LP residual skewness-based inverse filtering of the room impulse response[J]. IEEE Transactions on Audio Speech & Language Processing, 2012, 20(5):1617-1632.

[6] MOSAYYEBPOUR S, SAYYADIYAN A, MOHAMMADI E S, et al. Time delay estimation using one microphone inverse filtering in highly reverberant room[C]. International Conference on Signal Acquisition and Processing, IEEE, 2010:140-144.

[7] SCHROEDER M R. New method of measuring reverberation time[J]. Journal of the Acoustical Society of America, 1965, 37(3):409-412.

[8] SABINE W C, EGAN M D. Collected papers on acoustics[M]. Collected Papers on Acoustics. Harvard University Press, 1922.

[9] VESA S, HARMA A. Automatic estimation of reverberation time from binaural signals[C]. IEEE International Conference on Acoustics, 2005:281-284.

[10] UNOKI M, HIRAMATSU S. Blind estimation method of reverberation time based on concept of modulation transfer function[J]. Journal of the Acoustical Society of America, 2008, 123(5):3616.

[11] RATNAM R, JONES D L, O'BRIEN W D. Fast algorithms for blind estimation of reverberation time[J]. IEEE Signal Processing Letters, 2004, 11(6):537-540.

[12] LÖLLMANN H W, VARY P. Estimation of the reverberation time in noisy environments[C]. In Proc. Int. Workshop Acoust. Echo Noise Control(IWAENC), 2008:1-4.

[13] WEN J Y C, HABETS E A P, NAYLOR P A. Blind estimation of reverberation time based on the distribution of signal decay rates[C]. IEEE International Conference on Acoustics, 2008:329-332.

[14] HABETS E. Single and multi-microphone speech dereverberation using spectral enhancement[D]. Eindhoven: Eindhoven University of Techn.,2007.

[15] MOORER J A. About this reverberation business[J]. Computer Music Journal, 1985, 3(2):605-639.

[16] BELLANGER M G. Digital processing of speech signals[M]. New Jersey: Prentice-Hall, 1978.

[17] ALLEN J B, BERKLEY D A. Image method for efficiently simulating small-room acoustics[J]. Journal of the Acoustical Society of America, 1976, 60(S1):943-950.

A algorithm of blind reverberation time estimation based on LPC filter

Liu Xingliang, Yao Jianmin, Guo Tailiang

(College of Physics and Information Engineering, Fuzhou University, Fuzhou 350116, China)

Accurate calculation of the reverberation time need to know the size of the room and the absorption characteristics of the walls .Classical method of blind reverberation time estimation can estimate the reverberation time without knowing the size of the room and the absorption characteristics of the walls, but have to provide an impulse signal. In this paper, we proposed a linear prediction based method. Firstly, the input speech is passed through a low order linear prediction coding filter to obtain the LP residual signal. Then, calculating the autocorrelation function of the LP residual signal and extracting the appropriate portion. Lastly, calculating the reverberation time with the ML estimator whose input is the appropriate portion. In this paper, we also proposed an improved dichotomy to solve the ML equation. It is proved that the accuracy of the proposed method is increased, and the proposed method meets the requirements of real time.

linear predictive coding (LPC) filter; linear predictive residual signal; maximum likelihood estimate; unbiased autocorrelation function

国家重点研发计划课题(2016YFB0401503)

TP312

A

10.19358/j.issn.1674- 7720.2017.05.024

刘兴亮,姚剑敏,郭太良.基于LPC的混响时间估计算法[J].微型机与应用,2017,36(5):80-83.

2016-11-03)

刘兴亮(1991-),男,硕士研究生,主要研究方向:音频处理。

姚剑敏(1978-),男,博士,副研究员,主要研究方向:图像处理、音频处理等。

郭太良(1963-),男,研究员,博士生导师,主要研究方向:场致发射等。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!