当前位置:首页 期刊杂志

基于谱优势与非线性变换混合的立体声声学回声消除方法

时间:2024-07-28

杨鹤飞 郑成诗 李晓东

(中国科学院声学研究所 北京 100190)

(中国科学院上海高等研究院 上海 201210)

基于谱优势与非线性变换混合的立体声声学回声消除方法

杨鹤飞 郑成诗 李晓东*

(中国科学院声学研究所 北京 100190)

(中国科学院上海高等研究院 上海 201210)

立体声声学回声控制系统中,两通道信号间的强相关性导致自适应算法的解不唯一,滤波器失调较大。为了解决此问题,并尽可能地保留语音质量,该文基于心理声学上的谱优势效应提出一种新型的混合立体声声学回声消除方法。根据谱优势效应,在3个低次谐频处注入能量较弱的正弦信号,以减弱低频相关性。同时对非线性变换法进行改进,以用于中高频去相关处理。与传统方法的多方面性能测试对比结果表明:所提方法能有效改善失调性能并提高收敛速度,且具有较小的语音失真。

语音信号处理;立体声声学回声消除;去相关;谱优势;非线性变换

1 引言

通信系统中由于存在声学回声问题而需要进行声学回声消除(Acoustic Echo Cancellation, AEC),可利用自适应算法[1,2]实现该目的。立体声具有较强空间感,已广泛应用于语音通信系统。此时,远端房间内的两通道传声器信号间存在强相关性。这导致自适应滤波器的收敛值不唯一,从而使立体声声学回声消除(Stereo AEC, SAEC)系统的滤波器失调较大[3]。为了改善失调性能,需对两通道传声器信号进行去相关预处理。同时,为了保证通信质量,相应处理不应引入明显的语音失真。

目前已有大量的去相关方法可应用于SAEC。一类方法在信号中添加一部分其它信号。其中最典型的是非线性变换法,即在信号中添加一部分其本身的非线性变换[3];虽然有多种非线性变换可供选择,但半波整流变换最有效[4]。亦有人提出在两个通道中添加相互独立的低强度随机噪声[5],但为了不影响听觉感知,信噪比需足够高以至于去相关效果十分有限;此时可利用听觉掩蔽效应对添加噪声的频谱进行幅度调制[6],以增强去相关效果。另一类方法通过直接改变原始信号来降低通道间相关性,如全通滤波法[7]、时变的相位调制法[8]和时间反转法[9]等。其中,时间反转法仅选择性地对能量足够弱的数据帧进行时域反转。为了在去相关与语音失真之间取得更好的折中,近年的SAEC研究开始关注心理声学效应,并结合其它方法进行分频段处理。文献[10]基于听觉掩蔽效应在低频部分添加掩蔽噪声,并在高频段进行时变的全通滤波;文献[11]等结合基频遗失效应与非线性相位调制,其后期研究进一步将信号分为3个频段进行不同处理[12]。

本文基于心理声学效应提出一种混合SAEC方法。根据心理声学谱优势效应在3个低次谐频成分附近注入正弦信号,以降低低频相关性;在高频段则利用时变的非线性相位调制对非线性变换去相关法进行改进。为了简洁,下文中将所提出的方法简写为SDNT (Spectral Dominance-Nonlinear Transformation)法。

2 SDNT法

根据人耳听觉特性,人耳听觉系统在1.5 kHz以下对相位变化比较敏感[10]。因此,为了减小语音失真需尽量保持该频率范围内的信号相位不变,本文利用心理声学效应实现该目的。谱优势效应是一种心理声学效应,它是指:复音信号中,某些谐频成分对音高感知的影响更显著[13]。文献[14]指出,当复音信号的基频低于350 Hz时,其音高感知主要取决于四次及以上的谐频成分。因此可通过改变立体声某一通道信号中的3个低次谐频成分来达到低频去相关的目的,根据谱优势效应,如此操作不会引入明显的听觉损失。

综合上述分析,本文将SDNT法中的分频点取为1 kHz。在1 kHz以下的低频段,基于谱优势效应改变立体声语音信号中某一通道(本文选左通道)的3个低次谐频成分。可利用滤波器实现改变谐频的目的,但实际滤波器的旁瓣影响将引入额外的失真。本文采用注入正弦信号的方法,分别在3个低次谐频成分附近注入能量较弱的正弦信号,且各正弦信号受相应谐频成分控制。

在1 kHz以上的高频段,由于双耳声级差对声源定位的影响增强,处理时应尽量保持信号幅值不变。本文基于非线性相位调制得到一种改进的非线性变换法。为了进一步降低相关性,调制相位随时间变化。考虑到人耳的相位敏感度随频率递减,将非线性相位调制成分在信号中的能量占比设定为随频率递增。

由此得到结合心理声学谱优势效应的混合SAEC方法,即SDNT法,其实现框图如图1所示,其中x1(n)与x2(n)分别表示左、右通道信号。低频段的谱优势处理仅应用于x1(n);而高频处理则同时对两通道信号进行,但分别对x1(n)与x2(n)采用不同的调制相位。下面分别在2.1节和2.2节中对低、高频处理进行详尽阐述。

图1 SDNT法的实现框图

2.1 低频处理

2.1.1 基频检测 首先利用加权自相关法[15]检测基频。假设加权自相关函数为()ψτ,其最大值所对应的时延数0τ即为基频周期的估计值。语音信号中,需预先限定基频取值范围。考虑到语音信号的基频最高约为500 Hz[16],但位于区间[60,300] Hz内的概率高达97%[17];另外,谱优势效应仅在基频低于350 Hz时适用[14]。为了既适用于多数语音信号,又满足谱优势前提,本文将基频取值范围限定为[60,350] Hz。如此相当于

其中,sf为信号的采样频率。

式(1)得到的基频周期精度较低,仅为1个采样周期;为了提高检测精度,可进一步对以最大值为中心的相邻3个()ψτ值进行插值。设所用插值间隔为τΔ,则所得基频的估计精度为

其值随0τ的减小而降低,因此最低基频精度为

根据τ0可得基频估计值为f0=fs/τ0,相应地,二、三次谐频分别为2f0和3f0。为了改变3个低次谐频成分,本文将f0,2f0和3f0取为待注入正弦信号的频率。由于受基频检测算法的精度限制,f0存在一定的估计误差,从而使得被改变的不再是信号的3个低次谐频成分,这可能会引入较大的语音失真。考虑到人耳的最低可辨别特性[18],当两个频率之差不大于阈值df时,人耳不能对二者进行区分,其中df取值为[18]

由此易知,0f,02f和03f的估计误差均应不高于1 Hz。由于df随单频信号持续时间的缩短而增大[18],且语音信号中同一基频值的持续时间很短,本文将基频检测精度限定为不低于1 Hz,结合式(3)得

本文采样频率为16 kHz,此时Δτ≤0.13,可将插值间隔设定为0.1个采样点。

2.1.2 基频和二、三次谐频处理 傅里叶变换得到左通道信号的频谱X1(f)。利用基频估计值检索X1(f),分别得到基频与二、三次谐频信号的幅值和初相,并进行幅值加权得到

其中,i = 1, 2, 3分别对应于基频和二、三次谐频,A,ϕ,σ分别表示幅值、初相和幅值加权因子,函数angle{·}表示对复数取相位,σi在[0,1]内取值。所需注入的3个正弦信号的频率分别为fi=i·f0,其幅值和初相采用式(6)所得结果。由此构造出3个正弦信号si(n),并通过时域加法注入到左通道信号中。si(n)负责改变第i次谐频,易知σi越大,第i次谐频的改变程度越大,语音失真越明显。

2.2 高频处理

非线性变换法的频域表示为

其中,Xj( f ), j=1,2为xj(n)的频谱;β为非线性加权系数,在[0,1]内取值;函数{}F·表示非线性变换,传统的非线性变换去相关法中一般采用半波整流变换[3]。由于人耳听觉系统在高频对信号的幅值变化比较敏感,本文利用非线性相位调制得到一种改进的非线性变换法。

对于1 kHz以上的高频段,根据式(7)同时对两通道信号进行变换。函数{}F·采用非线性相位调制,且两通道的调制相位互为相反数,由此得到本文所采用的高频处理:

其中,调制相位Θ随帧数m和频率f非线性变化。为了保证IFFT的实数性,sf/2处的Θ值为0,因此,

其中,ϑ=2π·m·f/fs。对于相邻两个数据帧,ϑ值的相对差异为[(m+1)-m]/m=1/m,随m递减,即调制相位Θ的变化速度越来越慢;信号较长时,去相关效果将大为减弱。因此,将ϑ值优化为

其中,Λ表示变化周期,本文取为200帧,“%”表示将m对Λ求余数。

对于式(8)所示变换,变换前后信号能量几乎不变,此时通道间相干系数与频域互相关函数等价。下面利用互相关函数来评价高频去相关效果。变换后,两通道信号间的频域互相关函数C12( f )为

其中,E{}·表示数学期望,“*”表示对复数取共轭。式(11)的推导过程中利用了如下假设:

在1~2 kHz范围内,人耳听觉系统对信号的相位和幅值均比较敏感[10],因此将此频率范围内的β取为折中值0.5。由于人耳听觉系统的相位敏感度随频率升高而降低,当频率高于2 kHz时,令β随f线性递增。结合上述统计结果,得到非线性加权系数β的值如式(13)所示,其值在fs/2处取最大值0.9。得益于式(9)中调制相位的分段定义,β在1 kHz以下的非零值并不会对低频信号产生影响。

3iσ的选值

为了对比不同的iσ取值方案,采用如下指标对其性能进行评价:

(1)通道间相干系数(Inter-Channel Correlation Coefficient, ICCC): ICCC越小,相关性越弱。其定义为

(2)失调[19](MISalignment, MIS):失调是评价自适应通道辨识能力的量化指标,其定义为

其中,hj为物理脉冲响应,(n)为第n个采样周期内的自适应脉冲响应,表示2范数。

(3)语音质量感知评估[20](Perceptual Evaluation of Speech Quality, PESQ): PESQ将主观音质客观量化,它在-0.5~4.5之间[20]取值,其值越大,表示失真越小。本文利用文献[21]中的PESQ算法计算其值。

3.1 σi对低频去相关性能的影响

首先定义函数δm(f),当频率f在第m帧被检测为3个低次谐频之一时δm(f)=1,否则δm(f)=0;然后定义,以及S(f)= p。令表示不高于1 kHz的低频部分的ICCC值。考虑X1(f)=X2(f)=X(f)的情况,未进行低频去相关处理时ICCClow(f)≡1。为了便于观察σi的影响机理,令σ1=σ2=σ3=σ,则处理后的低频ICCC值为

由此得到如下结论:

由于语音信号的基频时刻变化,对于所有数据帧m, δm(f)=1成立的次数很少,可得到Sp(f)<S(f)/ (2+σ)。此时,式(17)的值为负,ICC(f)随Sp(f)递减。因此,频率f在3个低次谐频中的出现概率越大,相应地有Sp(f)越大,ICC(f)越小,即结论(2)成立。

图2 互相关函数在高频段(>1 kHz)的平均值随非线性加权系数的变化曲线

以一段长20 min,采样率16 kHz的男声语音信号做为样本数据,利用2.1.1节所述方法对浊音段进行基频检测,统计得到各频率在基频与二、三次谐频中的出现概率如图4所示。当频率高于约350 Hz时,出现概率随频率升高而降低。因此,当σ1=σ2=σ3时,根据结论(2)易知ICC将近似随频率升高而增大。

3.2 σi的选取

为了确定σi的最佳取值,对不同取值方案进行性能对比。由于σi仅影响左通道信号的低频处理,此处讨论左通道PESQ和低频ICCC。但MIS性能将在全频带讨论。首先选择3种取值方案: SDNT, σ1=0.10,σ2=0.20,σ3=0.30; SDNT-a, σ1= 0.20, σ2=0.35,σ3=0.50和SDNT-b, σ1=0.50, σ2=0.50, σ3=0.50。对男、女声语音下的性能进行平均,得到上述3种取值方案的性能对比如图5所示。由图5(a)可见,σ1<σ2<σ3时能获得较平坦的低频ICCC性能,且σi越大,去相关效果越好,这与3.1节的结论吻合。观察图5(b),方案SDNT-a和SDNT-b下的失调性能并未比方案SDNT好,可能的原因是:当低频ICCC值在一定范围内变化时,整体ICCC-f曲线的形状对失调性能影响更大。由于本文旨在改善失调性能,综合图5可将σi之间的关系设定为σ3:σ2:σ1=3:2:1。

令σ3:σ2:σ1=3:2:1,不同σ1值时的MIS曲线收敛值与PESQ如表1所示。结果显示,当σ1从0增大至0.1时,失调得到明显改善且PESQ降低较慢;而当σ1从0.1增大至0.2时则相反。σ1=0.1时(即方案SDNT),算法在失调性能与语音质量间取得了较好的折中;因此可认为方案SDNT是最佳取值方案之一。实际应用时,可根据系统要求调节σi的值。

图3 ICCC随σ的变化曲线

图4 不同频率值在3个低 次谐频中的出现概率

图5 不同的幅值加权因子取值方案下的性能对比

表1 不同σ1值时的MIS曲线收敛值和左通道PESQ

4 性能评价

考虑单向传输、远端房间中声源位置固定的SAEC场景。近端房间尺寸为4×3×3 m3,扬声器分别位于{1,2,1.2} m和{3,2,1.2} m,传声器分别位于{1.8,1,1.2} m和{2.2,1,1.2} m。采用信噪比为30 dB的高斯白噪声模拟近端房间内的背景噪声。测试用语音信号采用TIMIT数据库[22]中所有男声和女声信号。采样率取16 kHz,房间混响时间设为128 ms,利用虚源模型[23]得到扬声器至传声器的物理传递函数,长度为1024个采样点。自适应通道辨识时采用经典的的NLMS算法[2],步长0.4,自适应滤波器取512阶。

将SDNT法与以下方法进行性能比较:

(1)NLT(NonLinear Transformation)法:即采用半波整流变换的非线性变换法[3]。

(2)MFNP(Missing Fundamental-Nonlinear Phase modulation)法[11]:在低于500 Hz的低频段,利用心理声学上的基频遗失效应,在高频段则进行非线性相位调制。

(3)STR(Selective Time-Reversal)法[9]:对左通道信号中能量低于阈值的信号帧进行时间反转,右通道信号则保持不变。帧长取256点,能量阈值为0.01。

NLT法是一种非线性方法,SDNT法的高频处理亦是,但二者采用不同的非线性变换:NLT进行半波整流,而SDNT的高频处理利用非线性相位调制;另外,SDNT在低、高频进行不同处理,而NLT则在全频带进行相同处理。MFNP与SDNT均利用心理声学效应进行低频处理,但前者结合基频遗失效应,后者则基于谱优势效应;同时,二者采用不同的高频处理,前者直接进行相位调制,后者则利用非线性变换去相关法。STR法与上述方法均不同,但由于其操作简便、技巧新颖,本文将其与SDNT法进行性能对比。

测试时,STR法直接进行帧操作,NLT法则逐点计算。其它方法均进行加权重叠求和,帧长512点,即32 ms,重叠率50%,所用窗函数w(n)如式(18)[24]所示。

其中,L等于帧长。根据第3节的结论,SDNT法中的幅值加权因子取值为:σ1=0.10,σ2=0.20和σ3=0.30。

下面分别利用ICCC,失调,回声往返损耗增益[9](Echo-Return-Loss Enhancement, ERLE)和PESQ对各种SAEC方法的通道间相干性、失调、回声消除量和语音失真性能进行对比评价。对男、女声语音下的性能进行平均,得到的结果见图6,其中的“none”对应于未处理的原始信号。

4.1 通道间相干性

利用ICCC随频率的变化曲线检测各方法的去相关性能。计算ICCC时,对所有数据帧进行平均以估计数学期望,帧长512点,重叠率80%。经前述各种方法处理后的立体声信号所对应的ICCC值如图6(a)所示。

由于未考虑远端房间的染色效应,未处理时,两通道信号间的ICCC值接近1。就去相关效果而言,STR法最差,仅极低频和中高频相干系数略有减小;NLT法次之,极低频与中频段ICCC值较低。MFNP法在500 Hz以下利用基频遗失效应,从而获得强去相关效果;其在500~2000 Hz频段的ICCC值较高,高频段ICCC值再次降低。SDNT法的高频去相关效果明显优于低频。由于进行分频段操作,SDNT法与MFNP法的ICCC值分别在约1 kHz和500 Hz处发生突变,且MFNP法几乎在

图6 4种方法的性能对比

全频带具有最低的ICCC值。SDNT法的去相关强度几乎与频率成正比;且由于谐频成分改变程度较低,其低频去相关效果差。

4.2 失调

仿真结果如图6(b)所示,4种方法的失调学习曲线与“none”曲线的对比验证了去相关预处理在SAEC中的必要性。SDNT法具有最快的收敛速度和最佳辨识精度,而NLT法性能最差。对照图6(a)易知,STR法虽然去相关效果最差,但其自适应性能优于NLT法,其收敛精度甚至高于MFNP法;MFNP法的去相关效果几乎最佳,但失调性能则不然。由此可见,不同频率处的通道间相干性对失调具有不同程度的影响。

4.3 回声消除量

好的去相关方法应该在改善失调性能的同时,不损伤系统的噪声消除性能。ERLE表征回声消除量的大小,它是评价回声消除算法性能的常用物理量,其定义为

其中,d(n)为传声器信号;e(n)为经回声消除后的误差信号。ERLE越大,回声消除越干净。仿真得到不同去相关方法下的ERLE曲线如图6(c)所示。4种去相关方法的回声消除性能差别不大,但STR法性能最佳,其ERLE曲线几乎与未处理时的重合。其次是SDNT法,其ERLE收敛略慢。NLT法和MFNP法的ERLE性能相似,其收敛精度较低,且收敛速度较慢。

4.4 语音失真

图6(d)给出了经过不同去相关方法处理后的语音信号的PESQ值。“none”方法对应于未处理,信号无失真,其PESQ值为理想值4.5。4种SAEC方法中,综合左右通道情况,SDNT法的音质失真最小;且由于右通道的低频部分无处理,其所对应的PESQ值较左通道的高。STR法仅对左通道信号处理,其右通道信号无失真,但左通道信号失真大。MFNP法与NLT法同时对左右通道进行处理,在两通道中均存在较大失真,且前者失真较后者小;MFNP法中,为了保持通道间同步,对右通道的低频部分进行时延补偿,但却破坏了低、高频间的信号同步,因此在图6(d)中具有较小的右通道PESQ值。

5 结论

本文基于谱优势效应与改进的非线性变换法提出一种新型SAEC方法,并给出了一种最佳的幅值加权因子取值方案。在不同性能方面将本文方法与传统方法进行测试对比,结果表明其在去相关性、失调以及语音失真方面均具有较佳性能,能有效解决SAEC中的解失调问题。

[1] Malik S and Benesty J. Variationally diagonalized multichannel state-space frequency-domain adaptive filtering for acoustic echo cancellation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, 2013: 595-599.

[2] Nishiyama K. A unified view of adaptive algorithms for finite impulse response filters using the H fra∞mework[J]. Signal Processing, 2014, 97(2014): 55-63.

[3] Benesty J, Morgan D R, and Sondhi M M. A better understanding and an improved solution to the specific problems of stereophonic acoustic echo cancellation[J]. IEEE Transactions on Speech and Audio Processing, 1998, 6(2): 156-165.

[4] Morgan D R, Hall J L, and Benesty J. Investigation of several types of nonlinearities for use in stereo acoustic echo cancellation[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(6): 686-696.

[5] Romoli L, Cecchi S, and Piazza F. A combined approach for channel decorrelation in stereo acoustic echo cancellation exploiting time-varying frequency shifting[J]. IEEE Signal Processing Letters, 2013, 20(7): 717-720.

[6] Romoli L, Cecchi S, and Piazza F. Evaluation of a channel decorrelation approach for stereo acoustic echo cancellation [C]. 8th International Symposium on Image and Signal Processing and Analysis, Trieste, 2013: 783-788.

[7] Ali M. Stereophonic acoustic echo cancellation system using time varying all-pass filtering for signal decorrelation[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Seattle, 1998: 3689-3692.

[8] Herre J, Buchner H, and Kellermann W. Acoustic echo cancellation for surround sound using perceptually motivated convergence enhancement[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Honolulu, 2007: 17-20.

[9] Nguyen D Q, Gan W S, and Khong A W H. Time-reversal approach to the stereophonic acoustic echo cancellation problem[J]. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(2): 385-395.

[10] Valin J M. Perceptually-motivated nonlinear channel decorrelation for stereo acoustic echo cancellation[C]. Hands-Free Speech Communication and Microphone Arrays, Trento, 2008: 188-191.

[11] Cecchi S, Romoli L, Peretti P, et al.. A combined psychoacoustic approach for stereo acoustic echo cancellation[J]. IEEE Transactions on Audio, Speech and Language Processing, 2011, 19(6): 1530-1539.

[12] Romoli L, Cecchi S, Peretti P, et al.. A mixed decorrelation approach for stereo acoustic echo cancellation based on the estimation of the fundamental frequency[J]. IEEE Transactions on Audio, Speech and Language Processing, 2012, 20(2): 690-698.

[13] Schwartz D A and Purves D. Pitch is determined by naturally occuring periodic sounds[J]. Hearing Research, 2004, 194(1): 31-46.

[14] Plomp R. Pitch of complex tones[J]. The Journal of the Acoustical Society of America, 1967, 41(6): 1526-1533.

[15] Shimamura T and Kobayashi H. Weighted autocorrelation for pitch extraction of noise speech[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(7): 727-730.

[16] 韩纪庆, 张磊, 郑铁然. 语音信号处理[M]. 北京: 清华大学出版社, 2013: 86-91. Han Ji-qing, Zhang Lei, and Zheng Tie-ran. Speech Signal Processing[M]. Beijing: Tsinghua University Press, 2013: 86-91.

[17] Hu X, Wang S, Zheng C, et al.. A cepstrum-based preprocessing and postprocessing for speech enhancement in adverse environments[J]. Applied Acoustics, 2013, 74(12): 1458-1462.

[18] Zwicker E and Fastl H. Psychoacoustics: Facts and Models[M]. New York: Springer-Verlag, 1990: 185-187.

[19] Stanciu C, Benesty J, Paleologu C, et al.. A widely linear model for stereophonic acoustic echo cancellation[J]. Signal Processing, 2013, 93(2): 511-516.

[20] Hines A, Skoglund J, Kokaram A, et al.. Robustness of speech quality metrics to background noise and network degradations: Comparing ViSQOL, PESQ and POLQA[C]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, 2013: 3697-3701.

[21] Loizou P C. Speech Enhancement: Theory and Practice[M]. Boca Raton, FL: CRC Press, 2007: 514-524.

[22] Garofolo J S. DAPRA TIMIT acoustic-phonetic speech database [OL]. http://web.mit.edu/course/6/6.863/share/ nltk_lite/timit/, 1990.10.

[23] Habets E A P. Room impulse response generator [OL]. http://home.tiscali.nl/ehabets/rir_generator.html, 2014.08.

[24] Montgomery C. Vorbis I specification[OL]. http://www. xiph.org/vorbis/doc/Vorbis_I_spec.html, 2013.08.

杨鹤飞: 女,1988年生,博士生,研究方向为音频信号处理.

郑成诗: 男,1980年生,博士,副研究员,主要研究方向为语音信号处理、音频信号处理.

李晓东: 男,1966年生,博士,研究员,主要研究方向为语音信号处理、音频信号处理以及非线性声学.

A Stereo Acoustic Echo Cancellation Method Based on the Hybrid of Spectral Dominance and Nonlinear Transformation

Yang He-fei Zheng Cheng-shi Li Xiao-dong
(Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China)
(Shanghai Advanced Research Institute, Chinese Academy of Sciences, Shanghai 201210, China)

In stereophonic Acoustic Echo Cancellation (AEC) systems, the strong correlation between the two stereophonic channels leads to nonuniqueness of adaptive solutions and further large filter misalignment. To solve this problem and preserve speech quality, the psychoacoustic spectral dominance effect is utilized to propose a novel hybrid decorrelation method for stereo AEC. According to spectral dominance, weak sinusoids are injected at the three lowest harmonics so as to reduce low-frequency coherence. Besides, the nonlinear transformation method is modified and applied to high-frequency decorrelation. Comparison test on several performances with traditional approaches is carried out. Results show that the proposed method can effectively improve filter misalignment together with convergence rate. Moreover, low speech distortion can be achieved simultaneously.

Speech signal processing; Stereophonic Acoustic Echo Cancellation (AEC); Decorrelation; Spectral dominance; Nonlinear transformation

TN912.3

A

1009-5896(2015)02-0373-07

10.11999/JEIT140274

2014-03-04收到,2014-11-04改回

国家自然科学基金(61201403)资助课题

*通信作者:李晓东 lxd@mail.ioa.ac.cn

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!