一种抗噪声的语音识别方法研究

时间：2024-08-31

任丽娜

(山西职业技术学院，山西太原，030006)

0 引言

语音识别系统可接受人类并理解人的乐音，并根部语音指令执行命令，该技术基于声学、语言学、计算机、信息处理、人工智能等多项技术，广泛适用信息处理、通信、自动控制等诸多领域[1]。语音数字信号处理的关键是端点检测，端点从强噪语音信号识别出有效语音，噪音信号越复杂度识别难度也会增加。现有端点检测算法基于采集短时能量、连续时间、基频信息、过零率的语音特征参数分析，但在强噪音环境检测性能较差[2]。近年来，越来越多的学者采用改进型的信噪比计算的方法，极大提高了强噪音环境中的端点检测效果。

1 语音信号识别难点和基本原理

语音识别技术涉及声学、测量技术和信息处理等多个学科，检测端子从众多声音中识别目标人的语音特征信息，进行识别出是某人的语音[3]。基于人工智能领域的声音自动识别系统，比其他生物特征技术更具优势，基于声音的识别技术重复性好、操作简单，也不会涉及被识别者隐私，用户接受程度高，不同场合适用性好，生活中大部分物体都充当声音传递的媒介，且不受声波衍射作用和光照强度的影响。

但是，各地方言是识别系统准确性的一大障碍，识别系统基本采取标准普通话信号为基础，但方言各地差距较大，尤其是国内8种方言的发音差距特别大，语音识别系统准确度会大幅下降。随着移动无线互联网的推广，信道种类越来越多，尤其是移动电话、手机、无线发射器、移动网络系统，语音识别系统必须适应不同信道，不同信道差异较大，跨信道识别问题是语音信号识别的一个障碍[4]。背景噪音是影响语音识别系统的一大难题，背景噪音的频谱很容易和原始语音频谱重合，会将原始语音掩盖在噪音频谱范围内，导致识别系统不能准确分离出来原声音。音识识别就是模式识别，基本结构原理如图1所示，主要包括信号预处理、特征提取、特征匹配等基本功能模块，后处理模块作为输出部分直接面向用户。

图1 语音识别基本框图

2 语音信号特征及处理方法

发音器官主体为肺、喉、鼻和口，发生器官整体为形状复杂的管道，喉部、口和鼻子为声道，声道形状变化产生了发声的不同；声门产生语音的能量起到阀门和振动的双重作用，气流由肺部压力变化产生冲击，声带将冲击转化为不同频率振动，由声道响应转换成语音。不同的发音声道形状也相应变化，最终将不同的声音信息传递给周围环境。声带是人类发音系统的关键器官，声带是语音的激励源，声带振动形成基本声源，声带的开启和闭合形成气流脉冲，开启和闭合一次时间为一个基音周期，基音周期的倒数为基音频率，简称基频。声带发出基音决定声音频率，频率高则音调高，频率低则音调低，人类基音范围在70-350Hz，但人类的性别、年龄影响基音频率，整体趋势为年龄高频率偏低。语音发出后，声波以空气为载体进行传播，声波是振动方向和传播方向相同的一种纵波。声波是通过频率和振幅进行描述。声波频率决定了音高，声波振幅决定了响度，频率越高声音越高，振幅大则响度大，但是频率和振幅无直接联系。

分折处理前需要将语音信号从输入信号中分离，将语音转化成数字化信号经过放大器、增益控制、反混叠滤波，采样，A/D转换多个过程，预处理信号经过预加重、加窗、分帧处理。图2为语音信号处理简图。

图2 语音信号预处理简图

3 语音识别模型及算法

模型是对信号本质的数学描述，语音信号是非平稳随机信号，无法用确定性函数方程描述，因此必须分析多种语音识别数学模型，求解结果逼近实际值，因此要建立分类模型。目前可用模型有两种：高斯混合模型和隐马尔可夫模型。高斯混合模型的阶数必须足够大，才能全面体现特征空间的分布，采用的协方差矩阵类型为对角阵，高维特征空间计算量小，优势明显。模型初值初始条件不同，局部极值差距较大，模型初值必须修正均值。训练数据少或背景噪声过大时，方差幅度变小导致函数出现奇异性，只能通过方差限定提高计算精度。

隐马尔可夫模型有全连结和从左到右两种结构，从左到右的模型根据其结构特点有可以进一步细分。全连结模型允许由一个状态向其它任一状态转移，原理如图3所示。由左到右模型某一状态仅可向左/右侧状态转移。高斯混合模型和隐马尔可夫模型可适用不同场合的语音识别，但隐马尔可夫模型应用范围更大。

图3 全连接隐马尔模型示意图