当前位置:首页 期刊杂志

干扰空间投影在本征音说话人自适应中的应用

时间:2024-05-04

刘建航 杨喜鹏 李世宝 陈海华 黄庭培

(中国石油大学(华东)计算机与通信工程学院 山东 青岛 266580)

干扰空间投影在本征音说话人自适应中的应用

刘建航 杨喜鹏 李世宝 陈海华 黄庭培

(中国石油大学(华东)计算机与通信工程学院 山东 青岛 266580)

本征音自适应是一种快速高效的自适应算法,它被广泛应用到说话人识别中,但由于同一个说话人的本征音自适应的说话人因子之间的信道特征和噪声存在差异,导致了算法的识别精度降低。针对这一问题,提出基于干扰空间投影的本征音说话人识别(EV-NSP)算法。将训练语音通过主成分分析(PCA)方法计算得到干扰投影矩阵;将投影矩阵应用到生成本征音矢量算法中;利用最大似然估计算法自适应地得到说话人因子的估计值。实验结果表明,EV-NSP算法相对于传统的本征音自适应算法识别性能有了较大的提高。

本征音自适应 干扰空间投影 主成分分析 信道失配

0 引 言

近年来,说话人识别算法被广泛地应用到各个领域当中,在语音识别领域承担着关键角色。其中自适应算法是说话人识别算法中的重要组成部分,它通过消除训练说话人特征参数之间的不匹配,提高算法的识别性能。利用子空间的说话人自适应的算法[1-2]能够在适应数据较少时仍能取得较好的性能,是目前连续语音的研究热点。在自适应模型参数中的消除语义和信道的信息,是目前说话人识别算法中的关键问题。由于训练集合测试集中均包含语义信息,且说话人特征是不受文本约束的,所以语义信息的差异性会导致说话人特征分布存在差异,影响说话人识别的精确度。本征音自适应[3-4]能够有效地将说话人相关SI(speaker independent)调整为说话人无关SD(speaker dependent),有效地减少说话人语义干扰。

本征音自适应技术的目的是在训练说话人因子时,利用最大似然准则或最大后验概率,将SI调整至SD,消除语义对说话人算法的影响。文献[5]提出的基于2D-PCA的本征音自适应算法有较好的识别效果,但其在语料较少时的效果反而不如传统的本征音,同时复杂度较高。文献[6]应用L1约束的Lasso稀疏解、L2约束的稳定解以及L1和L2约束弹性网络的正则化方法,优化了本征音的训练参数过拟合问题。文献[7]在本征音自适应前利用特征补偿算法获得无信道干扰语音特征矢量,在信道的信噪比较低时的语音环境中取得较好的识别效果。文献[8]将本征音和联合因子分析算法JFA(Joint factor analysis)结合,利用联合因子中的特征映射将干扰信息和话者信息在低维空间进行分离。

目前信道失配已经成为影响本征音自适应说话人识别算法的识别精度的主要问题。在解决本征音自适应算法的信道失配问题上,模型域算法相对于特征域算法具有更好的补偿效果。目前模型域去除信道干扰的方法主要有模型合成、联合因子分析[9]、干扰特征投影NAP(nuance attribute projection)[10-11]以及线性判决分析等,其中NAP具有信道补偿效果好的优点被广泛用于说话人信道补偿中,文献[12]将NAP作为一种解决i-vector中的信道失配的算法。文献[13]将NAP算法和SVM算法分开应用,将NAP作为一种前端的特征补偿算法,结合高斯混合模型建立说话人确认算法。

本文借鉴文献[13]中的方法,结合高斯混合模型,利用NAP算法中的干扰空间投影方法来解决本征音中的信道失配问题。将特定训练集的信道信息矩阵结合主成分分析法生成干扰投影空间矩阵,并利用该空间矩阵对语音均值矢量进行逐条干扰投影,生成无信道干扰的语音特征矢量,最后结合最大似然估计算法,估计出本征音的说话人因子。该方法能够准确估计说话人的特征参数,有效地提高了本征音算法的抗干扰能力。图1为本文算法(EV-NSP)的流程图。在离线操作中首先训练SD模型和一个SI模型,将生成的模型语音进行干扰空间处理,将处理过的特征模型使用PCA算法找到特征值最大的K个本征音,在线阶段利用语音数据和语音的SI模型自适应得到与本征音所对应的说话人因子,即图中的权重W。

图1 算法流程图

1 本征音

(1)

式(1)的维数为D×C,S个说话人的矢量可以定义为M={μ(s),s=1,2,…,S},μS处于一个说话人空间中,该空间包含一个说话人的所有信息,对M矢量利用主成分分析PCA的方法将找到S个基矢量,记为e(1…k…S),其中e(k)就是第k个本征音。

假设所有的高斯矢量都落入一个K维的干扰空间(0

(2)

2 本征音的干扰空间投影

图2 本征音干扰空间投影

利用训练数据中标注信息的建立信道关联矩阵W,其表示每一条语音之间的信道关联性,W的形式如式子:

(3)

Z=diag(W·I)-W

(4)

式中:I为全是1的列矢量。计算

KZKV=KVΛ

(5)

按照PCA的方法求解式(5)中的广义特征值Λ和广义特征向量V,通常选取的特征值个数为几个到十几个,并将这些特征值所对的特征矢量V作为包含信道信息的矩阵,规整V:X=A·V,并由于信道投影矩阵与噪声投影矩阵的和是单位矩阵I,则计算投影空间矩阵如下:

P=I-XXT

(6)

得到说话人干扰空间投影矩阵P。假设得到训练数据μ={μ1,μ2,…,μN},则投影数据为μ′如下:

(7)

式中:N为语音的帧数,P为投影矩阵。

3 基于干扰空间投影的本征音自适应

自适应的目的是找到一组权值因子坐标w(1),w(2),…,w(k),使式(1)成立。采用最大似然准则和最大期望EM(Expectation Maximization)算法,自适应的过程等同于求解一个最优化问题。假设自适应的数据为O={o1,o2,…,oT},则无信道失配数据O′为:

(8)

求解系数说话人因子x(s′)公式如下:

(9)

式中:λn(t)是属于说话人无关模型的第n个高斯分量的后验概率,P为干扰空间投影矩阵。

将式(9)对x求导,令导数为0,能够计算出说话人矢量的最大似然估计值:

(10)

式(10)即为无信道失配的说话人因子最大似然本征估计。

4 实验性能分析

本文语音数据集采用NIST08部分语音以及实测语音共100条,每条语音时长约2 min,模型混合度为256。训练高维空间映射矩阵P时,选取NIST08中的带有标注的测试语音和训练语音以及部分实测语音,训练P矩阵的实测语音中的信道干扰来自不同强度的高斯白噪声和设备差异,并将所加的高斯白噪声和录制设备进行标注,用于计算P矩阵。对于所有的训练和测试语音,使用短时过零率及短时能量作为获取语音端点的方法,并提取13维MFCC及其一阶差分和二阶差分共39维参数作为特征向量。

一般衡量说话人确认算法有效性时一般采用等错误率EER(Equal error rate)、检测代价函数DCF(Detection cost function)、DET图(Detection error trade-off)等评价手段,本文采用了等错误率、DET图以及最小检测代价函数(MinDCF)作为算法的评价指标。DCF可以用以下式子表示:

Cfv·FR·Ptar+Cfa·FA·Pimp

(11)

式中:Cfv为错误拒绝的代价;Cfa为错误接受的代价;Ptar为真实说话人出现的先验概率;Pimp为冒充的说话人出现的先验概率。一般的NIST数据集中在评测任务时定义Cfv=10,Cfa=1,Ptar=0.01,Pimp=0.99。

图3为算法DET曲线,刻画了识别算法在两个数据集中分别采用EV和NSP-EV的性能四条曲线从上到下分别为Reality data EV、Reality data EV-NVP、NIST08 EV以及NIST08 NSP-EV。NIST08 EV表示输入语音数据集为NIST08,识别算法为传统本征音自适应算法;NIST08 NSP-EV表示语音数据集使用NIST08,识别算法为基于扰动空间投影的本征音算法;Reality data EV表示语音数据集使用实测数据,识别算法为传统本征音自适应算法;Reality data EV-NVP表示语音数据集使用实测数据,识别算法为基于扰动空间投影的本征音算法。图3中的曲线离原点越近,表示识别性能越好,图中的错误接受率FR(False Rejection rate)和错误拒绝率FA(False Acceptance rate)相等点为算法等错误率。由图知,同样的数据集中使用EV-NVP方法能够有效地提高算法性能,并且使用NIST08语音数据集的算法性能要由于使用实测数据。

图3 算法DET曲线

表1为针对两种数据集本征音矢量选取不同数量时的等错误率比较。NIST08 ERR表示使用NIST08数据集在不同矢量数量时的等错误率。RD EER表示使用实测数据在不同矢量数量时的等错误率。从表中能看出,算法的本征音矢量数量为16时算法识别性能达到最优。过高的本征音矢量个数会引起过拟合问题,过低的本征音矢量个数会引起欠拟合问题。

表1 两种数据集本征音个数

表2为GMM、EV以及NSP-EV三种算法在两种数据集中的EER和MinDCF比较,其中EV和NSP-EV两个本征音矢量个数为16。其中N-MinDCF表示使用NIST08数据集的算法MinDCF ,R-MinDCF表示使用实测数据的算法MinDCF。实验结果表明基于NSP-EV的说话人确认算法性能要明显优于其他两个算法,在两个数据集中均取得了较好的识别效果。相对于传统的本征音自适应算法,本文的NSP-EV算法在实测数据中相比于传统的GMM系统算法的EER降低了7%左右,在NIST08数据集中相比于传统的GMM系统算法的EER降低了5%左右。在实测数据和NIST08两个数据集中与传统的GMM算法相比,MinDCF分别降低了12.46%和30.54%。

表2 3种算法的EER和MinDCF

5 结 语

本文提出一种基于本征音的干扰空间投影方法,为解决本征音自适应说话人识别中的信道失配问题,本文干扰空间投影方法引入本征音自适应算法中,在生成本征音之前对语音数据逐条的进行干扰投影,消除了信道失配的影响。同时因为本征音对说话人语音特征矢量进行特征分解,消除了说话人语义干扰,在实测语音和NIST08中均取得较好的识别效果。

[1] Li H S, Liu J, Liu R S. Technology of speaker adaptation in speech recognition and its development trend[J]. Acta Electronica Sinica, 2003, 31(1):33-36.

[2] 齐耀辉, 潘复平, 葛凤培,等. 鉴别性最大后验概率线性回归说话人自适应研究[J]. 北京理工大学学报, 2015(9):946-950.

[3] Kuhn R, Junqua J C, Nguyen P, et al. Rapid speaker adaptation in eigenvoice space[J]. Speech & Audio Processing IEEE Transactions on, 2000, 8(6):695-707.

[4] 屈丹, 杨绪魁, 张文林. 特征空间本征音说话人自适应[J]. 自动化学报, 2015, 41(7):1244-1252.

[5] Jeong Y, Kim H S. New speaker adaptation method using 2-D PCA[J]. Signal Processing Letters IEEE, 2010,17(2):193-196.

[6] 张文林, 张连海, 牛铜,等. 基于正则化的本征音说话人自适应方法[J]. 自动化学报, 2012, 38(12):1950-1957.

[7] Lü Gang, Zhao Heming. Joint factor analysis of channel mismatch in whispering speaker verification[J]. Archives of Acoustics, 2012, 37(4):555-559.

[8] 潘镭, 郭武, 李轶杰,等. 基于本征音因子分析的短时说话人识别[J]. 数据采集与处理, 2009, 24(4):449-452.

[9] 张庆芳, 赵鹤鸣, 龚呈卉. 基于因子分析和特征映射的耳语说话人识别[J]. 数据采集与处理, 2016, 31(2):362-369.

[10] Campbell W M, Sturim D E, Reynolds D A, et al. SVM Based Speaker Verification using a GMM Supervector Kernel and NAP Variability Compensation[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. IEEE Xplore, 2012.

[11] Yifrach A, Novoselsky E, Solewicz Y A, et al. Improved nuisance attribute projection for face recognition[J]. Pattern Analysis and Applications, 2016,19(1):69-78.

[12] Dehak N, Kenny P J, Dehak R, et al. Front-End Factor Analysis for Speaker Verification[J].IEEE Transactions on Audio Speech & Language Processing, 2011,19(4):788-798.

[13] 郭武, 戴礼荣, 王仁华. 采用主成分分析的特征映射[J]. 自动化学报, 2008,34(8):876-879.

APPLICATIONOFNUISANCESPACEPROJECTIONINEIGENVOICESPEAKERADAPTATION

Liu Jianhang Yang Xipeng Li Shibao Chen Haihua Huang Tingpei

(CollegeofComputerandCommunicationEngineering,ChinaUniversityofPetroleum,Qingdao266580,Shandong,China)

Eigenvoice adaption is a fast and efficient adaptive algorithm which is widely used in speaker recognition. However, the speaker factor of eigenvoice adaption from the same speaker has different channel characteristics and noise feature, thus reduced the recognition accuracy. To solve this problem, we propose an eigenvoice speaker recognition algorithm based on nuisance space projection (EV-NSP). We calculated the nuisance space projection matrix by principal component analyzing training data, and then run the eigenvoice vector algorithm by using projection matrix. The maximum likelihood estimation algorithm was used to adaptively estimate the speaker factor. Experimental results indicate that EV-NSP algorithm have better performance compared with traditional adaptive eigenvoice algorithm.

Eigenvoice adaption Nuance space projection PCA Channel mismatch

2017-02-28。国家自然科学基金青年基金项目(61601519,61402433);山东省自然科学基金项目(ZR2014FM017);青岛市科技创新计划项目(15-9-80-jch)。刘建航,副教授,主研领域:车联网,模式识别。杨喜鹏,硕士生。李世宝,副教授。陈海华,博士。黄庭培,博士。

TP3

A

10.3969/j.issn.1000-386x.2017.11.035

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!