当前位置:首页 期刊杂志

基于改进深度学习模型的语音库量化标注仿真

时间:2024-05-04

徐亦丹,徐亦璐

(1.南昌交通学院,江西南昌 330013;2.江西农业大学,江西南昌 330045)

1 引言

人工智能技术以及大数据技术在近几年飞速发展,人类和智能机器之间有了密不可分的联系,而语音识别是实现人类和智能机器交流的重要途径之一。就目前来看,许多具有语音识别功能的产品都配备属于自己的数据库,例如百度地图、搜狗输入法、人工智慧助手等具有语音识别的产品,目前常用的语言翻译、语音识别、语音转文字等功能都是建立在具有技术识别特征的语音数据库之上的。一个成熟稳定的语音识别系统可以应用在军事,医学,机械制造,通讯等领域中。在语音库应用中,语音库标注是一个重要的部分,但是对于这方面来说我国的研究远远比不上国外,我国的研究大部分都停留在理论阶段,近几年才开始在应用方面深入研究。当前,有较多学者开展了相关工作的研究,文献[1]中,刘倩、李宁、田英爱等人研究了面向机器学习的流式文档逻辑结构标注方法,该方法主要通过机助人工实现文档元数据的分离式标注,但是该方法由于需要经过大量的计算,因此标注的准确率有待提升;文献[2]中,林倩、文华婷、杨静等人建立了中文词语内部层次结构标注语料库,该语料库提出一种新的中文词内部层次结构定义标准。该标准定义了内部结构的节点类型和节点内部关系,从而实现语音库量化标注,该方法在实现过程中,仅通过单一标准进行标注,其标注的准确率难以保证有很高的精准度;文献[3]中,冯鸾鸾、李军辉、李培峰等人研究了面向国防科技领域的技术和术语语料库构建方法,该方法制定了一系列标注规范,开展了大规模语料的标注工作,但是该方法的标注效率有待提升,并且在标注时仅针对国防领域的相关语料,在面向更广范围的语料时,标注精准度有待进一步考证。上述研究内容具有一定的应用效果,但是均存在一定的不足。

近几年来深度学习也成为了学习论坛上的焦点,其应用越来越广泛,深度学习可以促进各个领域向着更高的层次发展。就目前来看,我国深度学习在医学、心理学领域,教育领域,以及人工智能领域都有了广泛的应用,所以此次研究将深度学习模型应用到语音库量化标注仿真中,旨在为这一领域提供新的素材和资料,为语音识别数据库建设贡献出一份力量。因此,本文结合深度学习模型分析语音库量化标注原理,然后根据标注规则处理语音库文件,设计完整的基于改进深度学习模型的语音库标注流程,最后通过仿真验证研究的基于改进深度学习模型的语音库量化标注方法的实用性。

2 深度学习模型

深度学习主要由“学习内容”“教学行为”“学习资源”三方面构成,统计整合这三个方面及其相关的关系构建深度学习设计模型,其中学习内容主要由四个维度(简称为“4C”)构成,如图1所示。

图1 深度学习模型

基于图1的深度学习模型可知:

①认知过程由图1所示的四个阶段构成,每个阶段都对应着不同的学习内容、学习方式和资源,具有不同的学习方面。②感知阶段是入门学习阶段,即人类通过参与活动、实践,亲身感受到的自发性的学习,这一模块强调的是主动性学习。③整合阶段是指在学习者通过自身的学习不断获得新知识,新知识与旧知识不断磨合的一个过程。④归一阶段是指学习者在前一阶段构建属于自己的知识网络以后,把相同的知识点归为一类。⑤转移阶段主要是形成定式思维,在遇到一定情境中将思维转移到情境中解决问题。

在学习内容的这四个阶段中,根据学习者的自身学习状况随时调整,如果有不妥之处可随时返回,这体现了深度学习的多元性。

结合以上描述,进一步构建了深度学习机理模型,如图2所示。为了更直观地展示方便理解,图2将横纵切面结合到了一起。横切面由文化,技术和学习者构成。

图2 深度学习机理模型建立

通过上述过程建立完整的深度学习模型,为下一步分析语音库量化标注原理做准备。

3 语音库标注原理

标注录制并分化好的语音主要从音段和韵律两方面着手。音段标注从某个方面来说等同于音字转换,即将表面上的文字转化为等同的音节。目前所使用的语音识别大都将音节作为合成基元,因此主要用拼音完成标注。韵律标注没有特定的标注规则,一般都要根据实际情况来分析韵律并进行标注。

在语音库标注上主要采用深度学习模型,假设需要标注的语音库有6个层级[4],首先要确定每一层级的标注符号,然后利用深度学习模型导入voice文件,其次按照由低到高的顺序一层一层地编辑标注线并添加标注内容,最后检验和修改所做的标注,具体内容如下。

4 语音库量化标注方法

4.1 标注规则

音段标注的重点在于音素层,音节、韵律节拍、韵律词语、音色都是韵律标注的主要内容,在每一层的韵律单元上都会标上这些韵律符号[5],有利于后续的统计和整理,如表1所示。

表1 标注符号说明表

由表1可知,所标注的韵律信息中,除在每层标注韵律单元所在的位置之外,还需要标志每句之间的停顿位置[6]。

另外,标注还有4个重要的规则,一是可恢复性,根据标注的符号可以知道原语言,这样可以通过原词对比检查标注是否正确;二是同类性,音段标注不同于其它,其要求每段标注的符号要高度一致即同类。同一段语言必须用同一类的标注符号;三是符号功能,每个标注符号都有自身独特的功能,不可以根据个人意愿随意修改[7],要严格根据符号功能进行标注;四是不确定性,在统计时语言文件时常会出现丢失,损坏等状况,当标注时如果无法确定原语言就要用多个符号来标记,从而增加符号标记的准确性。

4.2 语音库文件预处理

4.2.1 语音信号的分帧

语音库不是将所有的语音文件放在一个文档之中,一个语音库应该是囊括同一类型的语音资料的所有种类[8]。为了得到一个正确的语音库就必须对原始语音库中的文件进行预处理,按照种类加工,预处理过程如图3所示。

图3 语音库文件预处理

由图3可以看出语音库文件要经过正音处理,音色处理,语法处理和语音处理四个步骤并存入小语音库中[9]。基于上述分析分类并储存小语音库中的文件。

将语音信号分解成帧,实际上是在每一帧上做一些变换或操作,表示方式如式(1)

(1)

式(1)中,x(m)代表输入语音信号,n代表窗口序列,m代表窗口宽度函数,w(·)代表窗口函数,t代表操作时长。

窗口函数越宽,平滑效应越显著;窗口函数越窄,平滑效应越不显著。

4.2.2 连续语音信号端点检测

端点检测的目的是从根据语音信号判断语音的开始和结束,在语音信号处理中,这也是一个很重要的问题。观测语音信号的波形变化,发现静音段波形变化较慢,清音段由于气流摩擦,振幅变化较大,通过零位的次数比静音段多。这样,就可以用短波信号的短波频率来描述,也就是,用波形过零的次数来判断。其表达式如式(2)所示

(2)

式(2)中,xi(n)代表信号判断参数。

在上述判断后,检测信号端点的主要过程如图4所示。

图4 信号端点检测过程

4.2.3 语音样本分类

在上述连续语音信号端点检测的基础上,将语音库空间数据化,其表达式如式(3)所示

(3)

式(3)中,h(s)代表阿尔法空间,ds代表积分运算,g代表共轭复数。

根据上述公式推导得到积卷公式中的函数[10],在此基础上,采用DHc算法进行训练样本计算[11],以对语音样本分类,其表达式如式(4)所示

G=Sy|x|∑ft/Jd|x4|,x∈X

(4)

式(4)中,Jd代表滤音特征参数,ft代表卷积运算参数,Sy代表所有滤波器的卷积和,x代表分类函数,X代表所有语音文件。

通过上述运算将所有同一类型的语音文件存储到同一个语音库中。

4.3 标注流程

在上述基础工作完成的基础上,对语音库量化并标注。一个完整的韵律层必须有清晰的语调层次,即音阶的起伏变化,一个清晰的语调层次,可以明显让听者感受到音阶的高低起伏和音调特点,因此标注不仅要有语音方面的特征也要有一定的语法特点,具体韵律标注流程如图5所示。

图5 量化标注流程

图5中标注的第一层是语言预处理,第二层是语言构成,下面五层都是语言韵律标注层。在切分好的语音段的每一层用符合标准的标注符号进行标注,在标注完成后,准确的标注出需要注意的韵律区域,方便以后提取参数,标注符号要简洁明了,防止标注层次过多、符号过多导致标注混淆的状况,然后再保存标注完的文件并重新以l-exend为拓展名进行命名,至此得到标注好的完整的语音库文件。

5 实验

为验证研究的基于改进深度学习模型的语音库量化模型标注仿真方法的有效性,进行对比实验。

所有实验均在奔腾(R)PC机上进行,采用43.00GHz CPU,512MB内存,windowsxp操作系统。实验使用汉语连续语音数据库“863”,库内输入环境的背景噪声为35dB,传声器低频50Hz,高频15000Hz,阻抗200Ω,电感54dB。取样频率16000Hz,编码比特为16位,单通道和通道噪声为50Hz。

为了保证实验严谨性,将传统的面向机器学习的流式文档逻辑结构标注方法(文献[1])、中文词语内部层次结构标注语料库的建立(文献[2])、面向国防科技领域的技术和术语语料库构建方法(文献[3])三种方法与所设计的方法进行对比。

5.1 标注准确率对比

此次研究的基于改进深度模型的语音库量化标注方法与传统三种方法的标注准确率对比结果如图6所示。

图6 标注准确率对比

基于6图能够发现,此次研究的基于改进深度学习模型的语音库量化标注方法,在语音库标注准确率在95%以上,相较于其它三种方法明显较高。在几次实验过程中,都能够保证较高的准确率,较传统两种方法的标注准确性高。这是由于本文方法在连续语音信号端点检测的基础上,将语音库空间数据化并对语音样本进行分类,提高了标注的准确度。

5.2 标注时间对比

传统的面向机器学习的流式文档逻辑结构标注方法、中文词语内部层次结构标注语料库的建立、面向国防科技领域的技术和术语语料库构建方法三种方法与此次研究的语音库量化标注方法的对比结果如图7所示。

图7 不同方法标注时间对比

通过图7能够发现,此次研究的语音库量化标注方法在几次实验过程中,

所花费的标注时间最高为4s,相较于其它三种方法的最低标注时间更低。这是由于所研究方法在利用改进深度学习模型,对语音库文件中的语音信号进行分帧,减少了标注时分辨语音信号的实际,提高了标注效率。

6 结语

语音识别系统和深度学习都是发展的热门项目,深入研究这两项项目将为我国科技的发展做出巨大的贡献。本文主要在深度学习模型的基础之上研究了语音库量化标注仿真的方法。

1)标注准确率实验结果表明,所研究方法的标注准确度最高,在95%以上。

2)标注时间实验结果表明,所研究方法的标注时间最短,最高为4s。

3)由于在研究过程中仅针对单一汉语连续语音数据库进行了实验,对更多种语言的语音数据库未进行深入分析,因此下一步的研究课题即:增添多种语言语音数据库,进一步检验和完善所研究方法。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!