时间:2024-05-31
郭静芳 张令通
摘要:信息技术的高度发展和各地、各民族之间的交流日益密切,带来了机器翻译的繁荣景象,通过对白族语言语音、词汇、语法方面的特点分析的方法,以及对多种少数民族语言与汉语之间的机器翻译方法的对比分析,从而寻找到最适合白一汉语互译的机器翻译的方法。
关键词:白族语言;机器翻译;方法;对比分析
中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2020)05-0224-02
1研究背景及研究现状
(1)研究背景:机器翻译的大约产生在1930年,一名法国科学家率先提出了机器翻译的思想;继而产生了用于语言翻译的机器,带来了机器翻译的繁荣。中国机器翻译研究起步于二十世纪六十年代,后来因为初期的机器翻译出现阻碍而导致其发展一度中断,直到1975年之后机器翻译才得到进一步得发展。而少数民族语言的机器翻译出现在上个世纪八十年代,以蒙语、藏语和维语为主要研究对象进行初步的尝试。(2)研究现状:目前,机器翻译的技术已经越来越精湛,对于英语、法语等广泛使用的语言有很好的成效,但是对于我国少数民族语言来说,由于语料规模小、语序差距大等问题导致少数民族的机器翻译很难达到想要的效果。(3)研究基础:基于机器翻译的普及和繁荣,国家对少数民族的重视和少数民族的机器翻译也日渐成熟,使白语的机器翻译更加有理论和技术的支持。
2常用机器翻译的种类及对比
2.1神经网络的机器翻译的研究
2.1.1蒙汉机器翻译
基本步骤:(1)以CRU-CRF混合算法来进行分词模块构建。(2)通过门控循环神经网络(GRU)和条件随机场(CRF)相结合的方式来对待标注序列进行语义分析和标注。(3)利用分布式表示方式对切分的单词进行向量化处理。(4)基于神经网络模型来构造编码器。
优:在源语言和目标语言的对齐处理上展现出较好的性能,同时在翻译质量上,其对应的BLEU值也得到了提高;切分蒙古文有效的解决了蒙古文的数据稀疏性,提高了蒙汉神经机器翻译的性能。
劣:对有限的蒙汉双语语料中的专有名词、人名、地名和数字等名词泛化处理,构词词缀的处理问题;对长句的处理能力较弱。
2.1.2维汉机器翻译
基本步骤:(1)将老维吾尔文进行拉丁化处理。(2)实现了基于神经网络维汉机器翻译,并在此基础上将传统的LTSM或GRU等非线性单元替换为LUA非线性单元。
优:当源端语言采用词亚词为翻译单元而目标端语言采用词为翻译单元时所得到的翻译效果最好,通过Nginx+Django+uwsgi的实现方式使整个翻译系统具有较高的翻译速度和并发量。
劣:亚词不能完全解决集外词问题。
2.2基于混合策略的蒙汉机器翻译的研究
基本步骤:(1)准备双语训练语料库;(2)双语训练语料库预处理;(3)汉蒙短语翻译表的建立侗语对齐、短语抽取);(4)蒙古语语言模型的训练;(5)解码:重点研究:蒙古语的格、复数及领属等附加成分的形态分析;蒙古语语序的汉语调序方法。
2.3基于规则的汉藏机器翻译系统中的句法分析方法研究
模块:词典维护模块、规则维护模块、分词标注模块、汉藏翻译模块、系统设置模块。
优:以动词谓语为轴心,把词项信息同语法规则相结合,把语法分析和语义分析融为一炉,实现语法分析和语义分析的一体化,并采用句法分析二分法就可以大大提高机器翻译语法分析的效率。
劣:出现时间早。
2.4基于统计的汉藏翻译系统关键研究与实现
技术原理:(1)树到串的翻译模型,抽取具体规则中更一般的规则;(2)中介语言方法;(3)专名识别;(4)统计翻译模型训练方法:无监督方法;(5)时态标注;(6)扩充已有的统计翻译模型:藏文动词的时态处理、动词的及物性、格助词处理等。
优:对藏文动词的时态处理、动词的及物性处理、格助词处理等进行了适当的处理;改善了统计机器翻译训练过程的盲目性、低效性、冗余性、表面性等不足。
劣:漢藏双语平行语料规模不够,影响藏语自动分词系统的分词准确率和翻译引擎的翻译准确率
3几种常见少数民族语言的对分析
3.1几种语言的对比(表1)
3.2白语特征简介
白族语属于汉藏语系藏缅语族,分为大理(南部)、剑川(中部)、碧江(北部)这三个部分。
语音分析,辅音方面:双唇、唇齿、舌尖、舌面、舌根。
元音方面:分松紧两类,这一特点与彝语支语言相同。
词汇方面,单音节词较多,多音节词较少。白语词汇中汉语借词所占比例是相当高的,构词形式有附加式、重叠式和复合式三类。
语法方面,白语语序以主谓宾的结构为主,与汉语相似,但也保留了古代白语的主宾谓型语序;白语量词发达,一般情况量词置于名词之后,其中部分量词已具有名词缀;白语声调较多,例如动词、助动词的否定和肯定以及人称代词的数和格的变化,都需要通过语调的曲折变化来表达。
4白-汉语适用的机器翻译方法
目前,基于统计和基于实例这两种机器翻译方法的技术已经十分成熟,但是这两种机器翻译的方法与语料库密不可分,它们的准确度直接依赖于与语料库的覆盖面、精确度,因此需要大规模的双语语料库,尽管汉语语料库的建设取得了很大的成就,比如:CCL汉语语料库总字符数已经到达了783,163 175,其中现代汉语语料库也有581794456字符,但是白语可收集的语料少、语料库小,以至于不是特别有效。所以我们可以通过语法方面的研究进行补足,基于规则的机器翻译的方法是依靠语言学家总结的语言翻译规则库,通过对句子的语法分析,按照语法规则进行判断和推导,再生成目标语言语句,一般通过以动词谓语为轴心,把语法和语义相结合,实现利用语法分析进行语义分析。而且,我国的自动分词系统已经有9%以上的正确率,因此可以采用统计与规则相结合的方式进行白族语言机器翻译,充分发挥规则和统计的作用,从而提高机器翻译的准确率。再加上白族语属于汉藏语系藏缅语族,与藏语的发音、词汇、语法等方面有很大的相似度,因此对与藏语适用的机器翻译的方法对白语也基本适用。
综上,根据白族语言特点和各类机器翻译的特点,白语的机器翻译可采用统计与规则相结合的混合策略实现。
5结语
通过对比分析多种常用的少数民族语言与汉语之间互译的机器翻译方法的优点和不足,并根据白族语言语音、词汇、语法方面的特点,提出了采用统计与规则相结合的混合策略实现白汉语互译的机器翻译方法,通过统计与规则二者之间的互补,解决白语语料库不足的问题,并可通过不断补充语料库和完善规则库,使白汉语互译的效果得到进一步的提升。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!