时间:2024-05-19
□文/房晓楠
机器翻译:人类距离“重建”巴别塔还有多远?
□文/房晓楠
房晓楠 本刊编辑
从1954年IBM-701 计算机首次将"Mi pyeryedayem mislyi posryedstvom ryechyi"翻译成"我们通过语音传递思想",到现如今谷歌机器翻译又添新语种,在这六十多年里机器翻译似乎正在一点一点地瓦解语言所形成的国家与国家之间、文化与文化之间的壁垒,那么,我们是不是可以想象:有朝一日,人类打破上帝曾经对于人类的“诅咒”,“重建”巴别塔……
在《圣经·旧约·创世记》中有一章,讲述了当时人类联合起来兴建希望能通往天堂的高塔——巴别塔,上帝知道后为了阻止人类的计划,改变了人类的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。
翻译真的有这么重要吗?是的,翻译背后是语言,语言的本质是符号,翻译就是对符号的“编码”和“解码”。
从一种语言翻译到另一种语言,就是对一种编码进行解码,再重新编码为另一套体系。
在中国四大名著之一《西游记》中唐三藏从东土大唐前往西天取经,得到经书之后翻译加以传播,普渡众生,可以说是符号(语言)“编码”—“解码”学说的一大有力实证。
在这里,说到“翻译”,似乎大家约定俗成地默认为“人工翻译”,那么在20世纪30年代初,当法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法之后,“翻译”似乎有了两个分支“人工翻译”和“机器翻译”,虽然后者还只是存在于意识中。
1949,在世界上第一台现代电子计算机ENIAC诞生3年之后,信息论的先驱、美国科学家瓦伦·韦弗(Warren Weaver)发表了《翻译备忘录》,首次建议将计算机应用于翻译。
1954年,美国乔治敦大学(Georgetown University)在 IBM 公司协同下,以 IBM-701计算机首次完成基于 6 项语法规则和 250 字词汇表的俄英翻译系统,能"Mi pyeryedayem mislyi posryedstvom ryechyi"翻译成"我们通过语音传递思想",从而将机器翻译从意识流转化为实物,拉开机器翻译研究的序幕。
在机器翻译发展的这六十多年里,出现了多种基于不同原理的机器翻译系统,从方法上来说,大概可以分为四类:
图1:瓦伦·韦弗
第一类:基于规则的机器翻译
从20世纪70年代中期到80年代末在机器翻译界占主导地位的就是基于词和语法规则的机器翻译系统了,这种方法是在翻译的过程中对源语言进行分析并对源语言的意义进行表示,然后再生成等价的目标语言。该系统从体系结构上来划分的话,可以分为直接翻译系统、转化翻译系统和基于中间语言的翻译系统。
在基于规则的机器翻译系统中,里面用到的规则是由语言学家进行编写的,虽然经过研究者们的努力已经建立了包含上万个规则的规则库,可是大量人力物力的消耗、时间周期的过于长久和实验的代价较大都是基于规则的机器翻译系统不容忽视的缺点。实际上,人类并不了解大脑是如何工作的,却仍然可以将工作做得很好。但是,人类自己语言熟练,并不代表人类能理解自身的语言神经是怎么运作的。这就导致基于人工规则的翻译软件翻译出一些令人啼笑皆非的译文。
针对基于规则的机器翻译系统的诸多弊病,功能更为齐全的新翻译系统应运而生。
第二类:基于实例的机器翻译
20世纪80年代中期,日本著名的翻译专家长尾真(Makoto Nagao)提出了基于实例的机器翻译的基本思想:不进行深层分析,仅仅利用已有的经验知识,通过类比对语言进行翻译。
基于实例的机器翻译系统的特点有:
1.系统中知识以翻译实例和语义词典等形式存在,系统易维护,可以利用增加实例和词汇的方式很容易地扩充系统。
2.如果利用较大的翻译实例库或输入与实例精确匹配时,翻译出来的译文质量相对来说比较高。
3.基于实例的机器翻译系统通过类比进行翻译,避免了基于规则的机器翻译必须进行的深层次语言学分析。
4.语种相关知识很少,只要记忆库中存在外形与输入相似的句子,即可匹配。EBMT对于相同或相似的文本,有非常显著的翻译效果,随着例句库规模的增加,其作用也愈显著。
虽然基于实例的机器翻译系统翻译效果显著提高,可是,在很多方面还是有些不尽如人意的。一方面,由于语料库规模的限制,将语料库中的源语言文本和目标语言文本中意思相同的一群通过算法对应起来还是存在一定的难度的。另外,实例匹配相似度也是亟待解决的问题。
第三类:基于统计的机器翻译
基于统计的机器翻译方法是20世纪90年代兴起的一种翻译方法,也是当前机器翻译的主要方法。
“统计机器翻译方法”(SMT),即通过对大量的平行语料进行统计分析,找出常见的词汇组合规则,尽量避免奇怪的短语组合。SMT翻译短语效果好,但是对于翻译句子的翻译结果就差强人意了,直到近几年基于神经网络的翻译模型( NMT)崛起。
神经网络机器翻译(NMT)模拟人脑神经的层级结构,具有多层芯片网络,从基础层开始,每一层都对从上一层接收来的信息进行抽象,自动识别出语言的规则、模式。人不了解那些规则也没关系,反正交给机器了,只要结果正确即可,这就是端到端的翻译。
到底什么是神经网络?神经网络是通过对人脑的基本单元——神经元的建模和联接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。神经网络的一个重要特性是它能够从环境中学习。
“神经网络技术在数据结构以及学习结构上模拟了人脑,并且‘学什么’这个问题也由机器自动掌握。再者,统计机器翻译里一百万行的代码,在神经网络机器翻译里只需要280行就可以解决了。”Marco Trombetti是这样来阐述神经网络在机器翻译方面的优势的。
相较于“统计机器翻译方法”(SMT)聚焦于局部信息(短语),神经网络机器翻译(NMT)更擅长利用全局信息——在对整个句子的信息解码、编码后才能生成结果。所以无论是语音识别还是翻译,都会发现句子长一点,机器识别和翻译的效果就会更好一点。 比如,语序问题是“翻译”头疼的问题,中文会把所有的定语都放在中心词前面,英文则会倒装,以往机器常混淆这个顺序。NMT通过基于深度学习的神经网络,向人类较好地学习到语序模式,长句翻译比以往流畅多了。
谷歌最近宣布启动的神经机器翻译系统(GNMT)就是利用神经网络将语音直接转译成文本,它是通过学习找到源语言和书面文本中的波形之间的对应关系模式。在TPU上运行,能降低55%~85%的翻译错误,并且十分接近人类译员的翻译水平,这在业内引起很大关注。
语音机器翻译的常规工作模式是先将语音转换成文本,然后将其翻译成另一种语言,但语音识别中的任何错误都会导致转录过程中的错误以及翻译错误。
而谷歌的深度学习研究机构Google Brain的研究人员利用神经网络取代了中间环节。通过这种跳过转录的方法,使得翻译更准确、更快捷。
第四类:混合式机器翻译模型
在机器翻译行业中各种翻译模型蓬勃发展,但也不约而同地存在着各式各样的缺陷。基于此,有些研究者就开始转向混合式机器翻译模型的研究。例如在一个基于Factored的维汉机器翻译系统中,将Factored系统和基于层次短语的Joshua翻译系统以及Moses中基于句法的翻译模型进行系统融合,构建一个混淆网络,就可以提高翻译的效果。
机器翻译发展这么迅速,翻译效果也在不断提高,那么,以后还需要学习外语吗?机器翻译是不是可以代替人工翻译?
“应该不会,”百度副总裁,AI技术平台体系(AIG)总负责人王海峰曾肯定地说,“它不仅不会威胁到翻译人员的生存,反而会给他们带来工作上的便利,据我所知,很多翻译人员的手机里也安装了我们的产品。机器翻译和人工翻译各有优势,一个机器翻译系统可以同时掌握几十种语言的翻译能力,也可以擅长多个领域的翻译,这是翻译人员们所不具备的。但同时,优秀的翻译人员可以将语言的细微之处翻译出精妙的美感来,这也是机器翻译系统无能为力的。所以说二者互补,彼此不能相互替代。”
对于语言的翻译,其实不仅仅是“编码”—“解码”这种一对一的输入输出关系,里面蕴含的更多是文化。不同语言之间的文化壁垒仅仅依靠翻译语言的表层意思还是难以打破的。
1898年,严复在《天演论·译例言》中,第一次提出了“信达雅”的翻译标准,指出译文要忠实于原文,不拘泥于原文形式,准确表达原文意思,追求原文意境。
相比于高质量的人工翻译来说,机器翻译虽然有了人工智能这一大利器,准确度有了很大程度上的提高,在一定程度上可以达到“信”的标准,但在实现翻译“雅达”要求上可能就力不从心了。而对于那些有着多种修辞手法的诗歌、小说来说,要想有一个较为精确的翻译难度就更加大了。机器翻译在揣摩人类思维的旅程中还是有很长的路要走的。为了弥补这些不足,现在更多的翻译公司采取的是人工智能+人工的人机翻译模式。
在人工智能这一科技领域,从来没有谁可以永远“一枝独秀”,而在当下的的AI发展版图中,技术路线有非常清晰的两块:一个是图像识别、语音识别方向,另一个就是自然语言处理方向。着眼当前的机器翻译领域,已经形成了中美科技巨头“相爱相杀”的局面。
在美国,谷歌、微软都将神经网络应用于机器翻译领域,谷歌更是表示会将神经网络机器翻译技术推广到Google Translate现在支持的全部103个语种中。前不久谷歌宣布谷歌机器翻译在支持英语与8种现有语言(汉语、法语、德语、日语、韩语、葡萄牙语、西班牙语和土耳其)的互译之外,还支持英语与其他7种新语言:俄语、印地语、越南语、波兰语、阿拉伯语、希伯来语和泰语的互译。新语种的添加使谷歌GNMT离103个语种的翻译又近了一步,而要完成这个目标,剩下的路还有多远呢?
而在中国,百度、科大讯飞等也都在机器翻译领域不断地开辟新疆土。到底,语言是民族的,还是世界的?在机器翻译中,国内国外的这些公司究竟谁能让我们“重建”巴别塔,这是人工智能改变未来的重要场景。
手机扫码阅读
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!