基于单目标跟踪算法的发音自动校准系统设计

时间：2024-05-04

李玉华

摘要：传统发音校准系统存在英语发音校准准确率低的问题，采用单目标跟踪算法设计发音自动校准系统，利用UNIX风格子程序对自动校准系统硬件框架进行构建，遵循内高聚合原则分析数据资源提取模块流程。针对英语发音信息采集需利用模拟数字信号转换来提高数据采样效率，对发音校准引擎A/D电路进行设计。采用单目标跟踪算法提取相关特征，并形成逻辑层。开发嵌入式内核结构，研究语音识别代码。通过实验验证可知，该系统英语发音校准准确率高，对发音纠正能力较强。

关键词：单目标跟踪算法；发音；自动校准； A/D电路；逻辑层；语音识别

中图分类号： TN02?34； TP273 文献标识码： A 文章编号： 1004?373X（2018）13?0151?04

Abstract： The traditional pronunciation calibration system has low accuracy for English pronunciation calibration. Therefore， the single target tracking algorithm is adopted to design the pronunciation automatic calibration system. The UNIX?style subroutine is used to build the hardware framework of the automatic calibration system， which follows the high?polymeric principle to analyze the extraction process of the data resource extraction module. The A/D signal conversion is used for English pronunciation information acquisition to improve the data sampling efficiency， and its circuit is designed. The single target tracking algorithm is adopted to extract the related features to form a logical layer. The embedded kernel structure is developed， and the speech recognition code is studied. The experimental results show that the system has high accuracy for English pronunciation calibration， and strong pronunciation correction ability.

Keywords： single target tracking algorithm； pronunciation； automatic calibration； A/D circuit； logical layer； speech recognition

0 引言

由于近幾年英语考试模式不断更新，口试部分进行了调整，只有笔试成绩优异的同学才能进行口语考试。传统考核机制存在校准准确率低的问题，对语言水平能力测试的公正性产生了很大影响。对于国际公司的业务往来需要具有优秀口语能力的员工进行无障碍交流，这就要求招聘时对员工进行口语测试。公司基本应聘要求就是个人的语言表达能力要强，可通过群体进行直接面试，而口语却只能一一进行，需要较多的人力与物力，无疑给企业招聘增加了难度。随着口语交流障碍问题的出现，信息技术的快速发展可有效解决该问题，由此计算机辅助学习技术应运而生。利用计算机技术解决口语中出现的问题，替代重复性工作行为[1]。

发音自动校准系统的设计综合了单目标跟踪算法，使该过程不用人为参与即可完成校准，并提高英语发音校准的准确率。针对学习者，可通过该系统进行反复练习，并根据评分结果及时调整自己的发音；针对大规模口语考试，使用该系统既提高了校准效果，又提高了考试公正性。因此，发音自动校准系统对发音学习和考试都有重要意义。

1 单目标跟踪算法系统设计

1.1 数据资源提取模块设计

英语发音具有独特技巧，需先了解发音器官：舌、唇、牙齿、声带、鼻腔和口腔。比如：“我喜欢这本书”，汉语主要看口型大小和前后开合情况，但是看不到身体形状变化情况；而英文“I like this book”，除了可以看到嘴巴的张合情况，还能看到胸部有节奏的呼吸，英语发音主要靠气流发出来，以胸腔进行发音[2]。

针对这种情况，设计音频文件提取流程，如图1所示。测试者可在固定位置进行录音，完成录音后将数据提交给系统，系统通过校准引擎A/D电路进行判定。

1.2 发音校准引擎A/D电路设计

针对英语发音信息采集需要利用模拟数字信号转换来提高数据采样效率，通常情况下采样效率不小于150 kHz，在语音识别中，设计多频振荡器对发音准确性进行自动校准，而A/D电路转换的校准是实现对英语打印信息模式转换的关键所在，通过对该电路原始语音信息进行采集与控制，可提高系统自动校正数据的准确性[3?4]。利用STM32F10内核多频振荡器集成智能信息控制A/D采样，并将数字信号处理（DSP）板上的15 V电压通过[I2C]总线进行电压加载[5]。通常情况下，在低功耗4通道15位A/D电路转换器上进行并行和串行控制，获取的输入电压为：

在发音准确性数据采集电源设计中，将数字信号处理（DSP）板上的±15 V电压两端分别对电容进行滤波处理。通过模拟信号发射范围进行同步采样，由此完成系统硬件部分的设计。

2 系统软件设计

设计系统软件部分，采用单目标跟踪算法对各个候选目标区域实施匹配，定位目标在校准序列中的位置。利用跟踪原理提取相关特征，获得目标表达效果，该算法构建逻辑层主要包括三个层次，分别是输入层、多隐层和输出层[7]。输入层主要负责将收集的数据输入到系统中，有利于可视化分类；多隐层利用人工神经网络对跟踪数据进行本质刻画；输出层主要负责对整合后数据输出，实现无监督数据传输[8]。

单目标跟踪算法可遵循人工神经网络模式，利用目标跟踪来模仿人脑，通过对发音数据特征进行组合形成抽象逻辑层。单目标跟踪算法与传统神经网络之间的相同点在于都采用分层结构对逻辑层进行构建，而不同点在于本文算法采用了三层构建模式，是最接近人类大脑的分层结构，每一层都可看作一个逻辑回归（Logistic Regression）模型，根据该模型可对不同层次数据进行跟踪，方便系统对发音数据自动收集。单目标跟踪算法逻辑层構建如图3所示。

根据图3建立的逻辑层，对发音自动校准系统软件的嵌入式内核结构进行开发，引导程序需调用说话者语音识别代码，如下所示：

Generates Settings--->

PPI CAT24WC256 andCMOS EEPROMr--->

[*]downloaded I2C hus transmission protocol

//引导程序负责上电时初始化

DSP input clock CLKIN（PPI_ Philips memnry）--->

（ /home/Documents/f automatically increase） XFR_TYPE load-ing I2C E2PROM

*Lash（DMAx_ 256 kb serial E2PROM CMOS）

//lib目录下提供内核

在该代码基础上，调用request_ irq单目标跟踪函数申请英语发音自动校准，利用freet_ irq单目标跟踪函数增加内部地址[9]。而[I2C]总线校准控制命令语句为：

#define data transmission rate_pwm"pwm"

int I2C hus standard_MAP（）

ret =CAT24WC256_pwm_open（misc）

通过硬件部分设计的A/D转换器进行软件程序的打开和关闭，保证总线数据传输效率，由此实现对发音准确性自动校准的设计与分析[10]。

3 实验

为了验证基于单目标跟踪算法的发音自动校准系统设计的合理性进行了如下实验。

3.1 实验环境设置

采用语音识别技术对多生源音频进行匹配，实验环境设置为：

1）配置PXI?6713语音播放通道，系统对发音进行自动采集，且频率不低于15 MHz；

2）利用标准VPP仪器对英语发音进行控制，控制整个校准过程对发音识别分辨率不低于5位；

3）发音信号输入频率范围较大，尽量使英语发音采集到的信息通道和输出通道都使用5通道进行同步和异步输入；

4）控制功率处于低消耗模式，A/D转换速率大于150 kHz，总线传输分辨率至少为10位。

3.2 实验结果与分析

将发音数据库里的数据内容设置为自动校准系统的输入内容，标准语音存储库存储的是句子语音文件和标记的语音信息。利用TIMIT语音库对系统进行训练，由500个说话者录制而成，每人可朗诵10句因素较全的英文句子。而发音库是具有开放式属性的数据库，可为任何人提交内容，单词总量可达到357 000。待自动校准语音数据库为实验待测语音数据库，将10名说话者的发音水平按照高低进行排序，使每人按照顺序依次读10句英文，记录者需将这些发音内容记录下来作为实验数据。同时，请5位导师对这100句英文的发音情况进行评分，评分结果需记录。

利用单目标跟踪算法不断进行反复迭代运算，在该过程中，虽然数据量大，运算起来较为复杂，但每个句子的运算流程却是一致的。以标准语音库中的例句为例，分析该句子组成的基本发音信息，如表1所示。

如表1所示，获取基本信息后，需要将音频数据进行参数化，首先对数据进行预加重、分针和加窗。然后对每帧数据进行提取，获取结果在系统页面上显示如图4所示。

发音自动校准系统获取信息之后，可在页面展示每帧音频频率波动情况，由图4可知，窗口上方为音频数据的波形图，下方为不同时刻的音素信息。每帧采样点数量是采样频率乘以帧长度，根据表1中音频基本信息以及发音库数据组织格式，设置语音帧长度为15 ms，采样点数量为240点。

根据上述实验过程，对待测发音数据进行校准。为了验证本文系统发音校准的准确率，将传统发音校准系统与基于单目标跟踪算法的发音自动校准系统的校准结果进行对比，如表2所示。

为了使实验结果更加明确，利用折线图对结果进行展示，如图5所示。

由图5可知，传统系统对发音校准的准确率小于本文设计的系统。

3.3 实验结论

针对基于单目标跟踪算法发音自动校准系统所进行的实验可充分验证该系统设计的合理性，通过发音自动校准界面，获取待测语音基本信息，根据例句描述语音特征提取结果，并将传统系统与本文系统校准准确情况进行对比，可充分体现本文设计的系统具有较好的自动校准效果。

4 结语

发音自动校准是一个极为复杂的过程，其中涉及声学和语言学的知识以及对音频信号的处理，由于说话者发音特点存在差异性，因此发音规则非常复杂，对发音进行自动校准也十分困难。为此，本文提出基于单目标跟踪算法发音自动校准系统的设计。通过实验验证系统设计的合理性，该系统具有较好的自动校准准确率，利用该系统可使学习者易于发现自己发音的不足，有针对性地改正发音效果。

参考文献

[1] 盛琥，赵温波，王立明，等.基于量测转换与输入估计的机动目标跟踪算法[J].系统工程与电子技术，2015，37（1）：31?36.

SHENG Hu， ZHAO Wenbo， WANG Liming， et al. Maneuvering target tracking algorithm based on converted measurement and input estimation [J]. Systems engineering and electronics， 2015， 37（1）： 31?36.

[2] 任航.基于拟蒙特卡洛滤波的改进式粒子滤波目标跟踪算法[J].电子测量与仪器学报，2015，29（2）：289?295.

REN Hang. Improved particle filter target tracking algorithm based on quasi Monte Carlo filtering [J]. Journal of electronic measurement and instrumentation， 2015， 29（2）： 289?295.

[3] 李康，何发智，潘一腾，等.基于簇相似的多分类器目标跟踪算法[J].电子学报，2016，44（4）：821?825.

LI Kang， HE Fazhi， PAN Yiteng， et al. Multi?classifier object tracking based on cluster similarity [J]. Acta electronica sinica， 2016， 44（4）： 821?825.

[4] 孙锐，黄静茹，丁文秀.一种基于子空间学习的实时目标跟踪算法[J].光电工程，2015，42（2）：52?58.

SUN Rui， HUANG Jingru， DING Wenxiu. A real?time object tracking algorithm based on subspace learning [J]. Opto?electronic engineering， 2015， 42（2）： 52?58.

[5] 刘哲，陈恳，郑紫微.基于HOG与多实例在线学习的目标跟踪算法[J].计算机工程，2015，41（1）：158?163.

LIU Zhe， CHEN Ken， ZHENG Ziwei. Object tracking algorithm based on HOG and multiple?instance online learning [J]. Computer engineering， 2015， 41（1）： 158?163.

[6] 陈杏源，郑烈心，裴海龙.基于Camshift和SURF的目标跟踪系统[J].计算机工程与设计，2016，37（4）：902?906.

CHEN Xingyuan， ZHENG Liexin， PEI Hailong. Object tracking system based on Camshift and SURF [J]. Computer engineering and design， 2016， 37（4）： 902?906.

[7] HU Yumei， HU Zhentao， ZHENG Shanshan， et al. Novel target tracking algorithm based on joint estimation of system error and state [J]. Computer science， 2015， 42（11）： 310?313.

[8] ZHU Hanhua， ZHAO Songying， LI Jingshu， et al. Monocular vision?based moving object tracking [J]. Navigation of China， 2017， 40（2）： 1?5.

[9] TIAN Anhong， YANG Siyuan， TANG Jinwen， et al. Target tracking algorithm research of integrated positioning system based on particle filter [J]. Journal of projectiles， rockets， missiles and guidance， 2015（2）： 134?136.

[10] 王卫民，金力.基于Android的手语动画自动生成软件设计[J].电子设计工程，2017，25（18）：42?45.

WANG Weimin， JIN Li. Sign language animation generation of software design based on Android [J]. Electronic design engineering， 2017， 25（18）： 42?45.

[11] 侯向丹，董永峰，坎启娇，等.基于运动轨迹的视频目标跟踪算法[J].计算机工程与设计，2015，36（4）：995?998.

HOU Xiangdan， DONG Yongfeng， KAN Qijiao， et al. Video target tracking based on movement trace [J]. Computer engineering and design， 2015， 36（4）： 995?998.

[12] 李志国，顾鑫，祝树生，等.基于特征确定性的目标跟踪算法[J].激光与红外，2015，45（5）：576?579.

LI Zhiguo， GU Xin， ZHU Shusheng， et al. Target tracking algorithm based on certainty measurement of the feature [J]. Laser & infrared， 2015， 45（5）： 576?579.