当前位置:首页 期刊杂志

基于自然拼读的穿戴式哑语翻译装置研究

时间:2024-07-28

谢 俐,何 勇,秦 蒙

(1.重庆电力高等专科学校,重庆 400053;2.重庆市实验中学,重庆 401320)

1 研究意义

据世界卫生组织统计,全世界失语人口数以亿计。失语给无数家庭带来巨大的伤害。随着人工智能和现代信息技术的飞速发展,利用现代科技解决残障人士的生活不便问题是各大科研团队、医疗单位关注的重点,也是满足人民美好生活需要的关键。

解决失语群体交流问题常用的哑语又称“手语”“手势”,是一种以手的动作和面部表情表达思想、进行交际的手段。哑语对失语者来说是最好的语言,是失语者之间,以及失语者和其亲属间交流、学习知识的重要手段。但是要用哑语进行交流,要求交流的双方都要会这种手势语言才行。然而,由于哑语学习比较困难,在非聋哑群体中的普及程度并不高。这给失语者在现实社会中与其他普通人的交往带来了障碍,不利于失语者融入社会。

哑语使用时,多有上肢和身体的动作。因手的表现力有限,故表达概念不如有声语言准确,且难以表示抽象概念。同时,因手语手势太复杂,不能广泛被人使用,何况一个字有时往往需要用许多手势才能解释清楚,而对于抽象概念的表达就更难了。

因此,要是有一种能把哑语直接翻译成语音的翻译器,失语者在社会中与普通人的交往就可以变得顺畅、轻松,这也更利于他们融入社会。本文研究的就是利用自然拼读方法实现哑语翻译的穿戴装置,以解决失语患者使用手语与普通人之间的“语言”沟通问题。

2 国内外研究现状及发展趋势

通过查询资料发现,近年来越来越多的研究人员开始重视哑语翻译,也取得了一些研究成果,如:微软亚洲研究院和中科院的Kinect手语翻译系统;北京航空航天大学“看见声音,听见手语”团队的手语翻译臂环;华盛顿大学两位本科生的SignAloud手语翻译手套;北京邮电大学“手语实时翻译系统”项目团队的手语翻译手套;等等。

总体来说,当前的手语翻译系统主要基于3种技术手段:基于视觉的手语识别[1-3],基于表面肌电信号的手语识别[4-5]和基于数据手套的手语识别[6-8]。但是,现有的哑语翻译系统或多或少存在一些问题。比如,微软和中科院的基于Kinect的手语翻译系统,以及华盛顿大学的SignAloud手语翻译手套均需要将传感器获取的手势信息回传给电脑,然后经过电脑处理后发出声音,这大大限制了哑语翻译系统的使用范围。北京航空航天大学和清华大学团队利用肌电传感器、陀螺仪、距离感应器等组件,并结合一套算法来解析手语的动作,这应该算是现有的手语翻译系统中比较优秀的方案。但是该方案,以及北京邮电大学团队的哑语翻译系统方案都是基于词汇的哑语翻译,只能对特定的手语词汇进行处理。

关于哑语的研究如下:1959年,中国手语改革委员会整理、修订了《聋哑人通用手语草图》,先后共出版了4辑、含2 000个手势图示;1979年,中国盲人聋哑人协会在草图的基础上又重新绘图,出版了两辑《聋哑人通用手语图》;1982年全国手语工作会议讨论和制订了640个新的手势动作,并由民政部、教育部、中国文字改革委员会批准试行和推广。如此多的词汇,对每个手势进行模式识别,建立对应的模型,本身就是一件十分困难的事情,更何况就算所有的词汇都能翻译,但也只能用于一些常规的交流,一些特殊的信息仍然无法处理。

3 基于自然拼读的穿戴式哑语翻译装置研究内容

本文研究的基于自然拼读的穿戴式哑语翻译装置,是以手套为主要的穿戴式载体,利用手套上位于指关节上的弯曲传感、手背的加速度传感器及部分特殊部位的光敏传感器对手势进行识别,利用标准手语将识别出的手势转换成对应的字母和音调,然后组合成对应的汉语拼音,发送给语音模块,由语音模块合成并朗读出汉字,从而实现任意哑语信息的实时翻译。

3.1 系统组成

基于自然拼读的穿戴式哑语翻译装置由“传感器组”“哑语翻译控制器”“语音合成模块”“语音播放模块”4部分组成,如图1所示。其中,传感器组又由弯曲传感器、加速度传感器和光敏传感器3种传感器组成。

图1 基于自然拼读的穿戴式哑语翻译装置系统组成框图

3.2 工作原理

由于基于Kinect及基于图像处理的哑语翻译系统在使用上具有很大的局限性,所以本文主要以可穿戴式哑语翻译装置为研究对象。当前比较流行的可穿戴式哑语翻译系统主要有两个大的方向,一个是以华盛顿大学本科生及北京邮电大学团队为代表的利用弯曲传感器及其一系列的附属传感器实现的、类似于手套方式的手势识别系统;另一个是以北京航空航天大学团队为代表的腕带、手环方案。但是当前的这两种方案都有一个严重的问题,它们均是基于特定手语词汇的翻译系统,只能对常见词汇进行处理,一旦遇到未收录的词汇,系统将无能为力。

针对上述问题,本文主要对第一种方式进行改进,利用附带传感器的手套识别汉语手指字母和音调,如图2所示。然后,组合成对应的汉语拼音,利用自然拼读的方式,合成文字,并播放。

图2 汉语手指字母图

3.3 具体设计

3.3.1 字母识别

字母的编码,是本设计最核心的一个部分。之所以华盛顿大学本科生及北京邮电大学团队采用词组方式,就是因为在字母的识别中,仅仅由手指关节上的弯曲传感器来判断手势存在很多重复。假设手指伸直为1,半弯曲为2,完全弯曲为3,可以得到编码表,如表1所示。将表1里面的数据进行排序,得到表2。

表1 字母编码表

表1 (续)

从表2中黑体表示的字母编码可以看出,30个字母编码中有一半以上的字母编码和别的字母编码冲突。为了处理该冲突,本方案在手套的手背上额外添加了一个加速度传感器,并在大拇指的手心面、食指的正面及侧面各添加了1个光敏传感器。

表2 排序后的数据

假设手指伸直为1,半弯曲为2,完全弯曲为3,加速度传感器记录对地角度,光敏传感器被挡住光线为1,我们可以得到一份新的编码表,如表3所示。

通过表3可以看出,前面所有有冲突的字母编码都可以通过辅助加入的传感器进行区分。这样每个字母都可以用手势进行精确的表示,不会产生歧义。

表3 新的字母编码表

3.3.2 声调处理

在本研究中,声调使用左手单独处理,同时左手也须表示汉语拼音的开始和结束。在左手手套的手背处添加一个加速度传感器。当左手臂下垂时,右手动作无效;当左手抬起时,右手的字母手势才生效,并且左手掌心朝向决定当前拼音的音调。当左手掌心向下时,是一声;当左手掌心向右时,是二声;当左手掌心向上时,是三声;当左手掌心向左时,是四声。

3.3.3 语音合成

左手抬起到指定的音调位置,右手手势表示字母,整个拼音未完全拼写完成前,左手一直处于该音调位置。右手依次比划拼音所含字母,比划完一个字母后,手部自然下垂一次,表示该字母手势确认,然后进入下一个手势的比划。生成了汉语拼音以后,装置将生成的拼音发送给语音模块SYN6658,然后由语音模块驱动播放,在手背上的小喇叭上朗读该汉字。整个过程如图3所示。

图3 流程图

基于自然拼读的穿戴式哑语翻译装置,将置于可穿戴式手套上的弯曲度、加速度、光线强度等传感器所采集的数据进行融合,进而与标准字母手语字符和音调的特征进行比对,将标准的字母手语转换成对应的字母和音调。然后利用汉语拼音的自然拼读方式,将拼音序列及音调发送给语音模块合成语音,再将该汉字拼音通过手套上内置的小喇叭播放出来,从而实现了任意哑语信息的实时翻译。

4 结论

比较现有的哑语翻译系统,基于自然拼读的穿戴式哑语翻译装置具有以下特点:使用微型的单片机进行处理,不需要大型计算设备的参与,易于携带,不受使用位置的限制;利用现有的标准字母手语方式,使用者不需要重新进行手语手势的学习,上手容易,使用简单;利用自然拼读方式取代常见的词组方式,可以对如地名、人名等非标准手语词汇进行翻译,不受翻译文字内容库的限制;后期基于自然拼读的穿戴式哑语翻译装置可以很容易地用于如英语等其他语种的哑语翻译;等等。

基于自然拼读的穿戴式哑语翻译装置是利用自然拼读方法实现哑语翻译的穿戴装置,不仅解决了失语患者使用手语与普通人之间的“语言”沟通问题,而且易于携带,不受使用位置和待翻译文字内容甚至语言种类的限制。因此,具有较强的实用意义和推广价值。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!