当前位置:首页 期刊杂志

基于权重比例分配的码书映射语音转换算法

时间:2024-07-06

鲍静益,徐宁

(1.常州工学院电气信息工程学院,江苏常州213032; 2.河海大学物联网工程学院,江苏常州213022)

0 引言

语音转换技术是一种通过改变源说话人语音信号中的个人特征信息,使之具有目标说话人语音个人特征信息的技术[1-5]。语音转换技术广泛应用于语音信号处理领域,尤其是在个性化语音合成、信息安全及多媒体娱乐领域有着非常广阔的应用前景。比如,通过语音转换可伪造敌方人员声音来突破声纹识别准入系统,又如角色配音。

目前语音转换算法主要有:基于码书映射的转换算法[2—6],以高斯混合模型(gaussian mixture model,GMM)为代表的基于统计映射的转换算法[1—7],以隐马尔可夫模型为代表的基于时序模型的转换算法[8]6925,以及基于人工神经网络的转换算法[9]580等。其中比较有代表性的基于码书映射的语音转换算法利用矢量量化(vector quantization, VQ)实现语音转换。Arslan等[10]211提出基于分段码书的说话人映射算法,将输入语音帧按所属音素类别进行分类,采用线性频率谱(line spectral frequency, LSF)作为特征参数建立源语音与目标语音一一对应的码书映射。基于码书映射的语音转换算法,运算复杂度低,转换效率高,在计算性能资源受限的平台或环境中,比如嵌入式系统中具有较大优势。但是传统的基于码书映射的语音转换算法普遍存在转换语音音质较差、个性特征不明显的问题。

为了克服上述问题,使转换语音与目标语言具有较高的相似度,同时保证转换过程适用于资源受限平台,本文提出一种基于权重比例分配的码书映射语音转换方法。

1 基于权重比例分配的码书映射语音转换系统框架

基于权重比例分配的码书映射语音转换系统工作主要分为2个阶段:训练阶段和转换阶段。训练阶段建立源语音与目标语音之间的映射关系,转换阶段利用该映射关系对语音信号的特征参数进行转换,合成转换语音。图1和图2为2个阶段的实现框图。

图1 训练阶段的实现框图

图2 转换阶段的实现框图

训练阶段,本文采用谐波随机模型(harmonic stochastic model, HSM)[7—8]。首先,HSM将语音信号模拟为大量基频谐波正弦信号和一个类似于噪声分量的结合。其次,将谐波声道谱参数转换为本文需要的线性频率谱参数。建立转换函数需要源语音和目标语音的LSF参数对应关系,所以本文采用动态时间规整(dynamic time warping, DTW)[11]对齐算法进行参数对齐,从中分别提取源与目标码书矩阵和训练特征参数矩阵。最后,计算源与目标训练参数对应于各自码书各码字的码书权重值,训练源码书权重与目标码书权重之间的映射关系。

在转换阶段,首先与训练阶段相同,将源语音通过谐波随机模型分析提取LSF参数,计算该参数对应于训练阶段得到的源码书中各码字的源码书权重,然后利用训练阶段得到的权重映射关系计算目标码书权重和目标码书,重构出目标特征参数,进而合成转换语音。具体映射、重构和合成过程将在第2部分详细介绍。

2 权重比例分配的码书映射算法

传统的基于码书映射的语音转换方法,直接将训练阶段得到的源码书权重Vx作为目标码书权重,计算得到转换语音的特征参数[9—10],这在一定程度上降低了转换语音与目标语音的相似度。针对这一问题,本文提出基于权重比例分配的码书映射语音转换方法,建立源码书权重Vx和目标码书权重Vy之间的映射关系。首先设置不同权重阈值,分析其对转换语音的影响,找到最佳阈值并对权重矩阵进行稀疏化处理;然后进行权重的映射,在转换阶段通过源码书权重Vx和映射关系得到目标码书权重Vy;最后利用该目标码书权重Vy和目标码书Y重构出转换语音的特征参数。与传统方法相比,该方法能够更精确地得到转换语音。主要映射和转换过程如下。

1)分析权重值大小对转换结果的影响,即对权重矩阵设置不同阈值,将小于阈值的权重值设为零,对权重矩阵进行稀疏化处理,将稀疏后的权重矢量直接用于转换过程,合成转换语音。分析转换语音和目标语音的LSF加权距离,可得到对转换语音影响较大的那部分权重值,权重阈值及LSF加权距离分析结果见表1。

表1 LSF加权距离随权重阈值的变化

权重阈值设置为10-2到10-7之间。以未设置权重阈值时的LSF加权距离13.69作为参考值,可以看出,当权重阈值大于10-3时,直接采用源码书权重进行语音转换时,源码书权重值对转换语音造成较大影响,而当权重阈值小于10-4时,转换语音与目标语音的LSF加权距离与阈值为10-4时的距离已经基本没有差别,即将小于阈值的权重值进行转换时并不影响转换语音与目标语音的相似度,所以本文提出对大于权重阈值10-4的源码书权重值进行映射。

2)基于权重比例分配的码书映射,每一帧源和目标训练参数对应于各自码书矩阵都可以得到一个权重矢量。对于大于权重阈值的码书权重,数值越大对转换语音影响越大,据此提出新的码书映射方法。

③循环第②步,直到该对码书权重矢量值小于权重阈值,则停止该帧参数对应的权重矢量映射,进入下一帧映射。

④循环①—③步,完成训练参数矩阵对应于码书矩阵的所有权重矢量的统计映射。此时得到的矩阵B即为新的码书映射矩阵。

3)合成转换语音。在转换阶段,首先求取源语音的声道特征参数(LSF参数)对应于源语音码书中各码字的码书权重;然后依据上述已经建立的映射关系,对权重进行转换,得到目标语音对应于目标码书中各码字的码书权重:

Vy=VxBT

对目标LSF参数进行重构,得到转换后的LSF参数ωy,完成LSF参数的转换:

3 清音转换

本文基于码书对清音帧进行转换。清音信号转换框图如图3。

图3 清音信号的转换框图

训练过程中,从对齐的清音帧参数对中提取滤波器系数建立源与目标语音的滤波器系数码书。

在转换过程中,当前输入帧的基音频率为零时即判定为清音帧并进行清音转换。谐波随机模型对清音采用带宽随机噪声表示,带宽随机噪声可以看作通过全极点滤波器滤波的高斯白噪声。首先用一个p阶全极点滤波器对清音帧进行建模,获得全极点滤波器的能量,以及源滤波器系数矢量a=[a1,a2,…,ap]。然后基于码书对源滤波器系数矢量a进行转换,得到转换后的滤波器系数矢量a′。最后,将系数矢量a′、滤波器的能量和高斯白噪声合成转换后的语音。

4 结果与分析

本文采用的实验数据选自CMU ARCTIC语音数据库,采样频率为16 kHz。从语音库中随机选取BDL(男)和 SLT(女) 两位说话人各100句的对称语句数据,每句语音约3 s。采用10 ms窗长、5 ms步移的汉明窗对语音进行分帧处理,提取其中的浊音帧(约38 000帧)作为浊音语音数据库,用于浊音码书和训练数据的提取。另外再选取两位说话人各20句的对称语句用于对转换算法的评估。以下对本文的转换算法从客观和主观两方面进行评估。

4.1 客观测试

转换后的声道谱参数和目标语音的声道谱参数之间的相似度用失真标准来判断,这里采用转换语音与目标语音间的LSF加权距离Δd作为度量标准[12]。LSF加权距离的优点在于其计算加权值时考虑了LSF参数中的共振峰信息,计算公式如下:

将基于GMM[7]486和传统的基于码书映射[10]212的转换算法作为对照,计算转换后的声道谱特征参数和目标语音的声道谱特征参数之间的加权距离,其中GMM算法在训练阶段的高斯混合度取8。GMM算法、传统算法、本文算法测得LSF加权距离分别为13.86、13.53、12.28。

基于GMM方法的逐帧转换过程忽略了语音信号的帧间强相关性,导致转换语音音质下降,而传统的基于码书映射的语音转换方法直接使用源码书权重用于转换语音特征参数重构,导致转换语音与目标语音的个性特征相似度低。本文采用基于权重比例分配的码书映射方法有效避免了上述方法中存在的问题,另外该方法还分析了权重值大小对转换语音的影响,对有较大影响的权重值进行了映射转换,避免了权重数据冗余问题。本文方法与基于GMM和传统码书映射方法相比,转换语音与目标语音间的LSF加权距离有明显降低,说明本文方法有效降低了转换语音的失真度,大大提高了转换语音与目标语音个性特征的相似度。

为比较各算法的及时性,对该算法运行时间进行测试,测得GMM算法、传统算法、本文算法的运行时间分别为310.9、36.4、42.7 s。

可见,本文算法相比于GMM算法在运行时间上大大减少,但是略高于传统转换算法。本文算法不仅有效提高了转换语音的音质,同时也保证系统运行时间仍然处于较低值,可以很好地用于资源受限的平台,比如嵌入式系统等。

4.2 主观测试

本实验采用ABX测试分别对传统的基于码书映射语音转换方法和本文方法得到的转换语音与目标语音的相似度进行主观测试,A表示传统方法所得转换语音,B表示本文方法所得转换语音。5名测听者被要求判断给定的20句目标语音与对应的20句转换语音A和 B哪个更接近。表2为ABX测试结果,从表中结果可以算出,目标语音接近于A即传统方法所得转换语音的概率约为12%,而接近于B即本文方法所得转换语音的概率可达82%。这说明与传统方法相比,本文方法所得转换语音与目标语音的个性特征更为接近,相似度更高。

表2 ABX测试结果 句

5 结论

本文针对传统的基于码书映射的语音转换方法中存在相似度不高的问题,提出一种新的语音转换算法。首先,设置权重阈值对码书权重矩阵稀疏化,分析传统码书映射方法中不同码书权重对转换语音的影响。其次,将源与目标码书权重矩阵中大于权重阈值的值进行训练,根据不同权重值对转换语音的影响比例不同建立权重映射关系。最后,通过映射关系由源码书权重得到目标码书权重,进而合成转换语音。实验结果表明,该方法有效解决了传统的基于码书映射的语音转换方法中直接使用源码书权重合成转换语音与目标语音存在相似度不高的问题,同时考虑了不同权重值对转换语音的不同影响,对应不同权重在映射矩阵中累加不同映射数值,实现了更加准确的码书映射,进一步提高了转换语音的音质和转换语音与目标语音的相似度。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!