当前位置:首页 期刊杂志

大数据时代汉英语际对应词的挖掘*

时间:2024-05-07

马立东 吴光华



大数据时代汉英语际对应词的挖掘*

马立东吴光华

摘要文章分析了大数据时代词典编纂可用或可参考数据的特点,探索如何从海量数据中挖掘汉英语际对应词等词汇知识,还简要探讨了与数据或语料使用相关的问题。挖掘实践表明: 充分利用可用资源,从纷杂的大数据中可以挖掘出所需的词汇知识,但目前仍需专业人员进行筛选、认定和解读。词典要保持生命力必须及时修订和收录新词。对于汉英词典来说,提供汉语词语的地道英语对应词会提升其实用价值。研究语际对应词挖掘不仅有助于编纂出符合用户需求的双语词典,对构建大数据语言资源库和开发挖掘分析软件也有参考价值。

关键词大数据时代对应词新词挖掘汉英词典

一、 研究背景

移动互联网的飞速发展加快了媒体融合的进程,也使传统的词典学研究和词典编纂实践面临挑战。不仅纸质词典,就连掌上型电子词典也遭到了前所未有的冷遇。人们更喜欢通过智能手机或计算机查询在线网络词典或离线电子词典。

移动互联网的不断普及也加速了大数据的产生和应用。词典学研究和编纂实践不仅要跟上时代的步伐,更应抓住机遇。2011年,世界知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。”(韩蕊2013)自从2012年以来,大数据(big data)这个新词热度不减。大数据研究及应用成为世界范围内各界持续关注的焦点。《大数据时代》的作者舍恩伯格和库克耶(2013)断言:“大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。就像望远镜让我们感受宇宙,显微镜让我们能够观测到微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发。”2014年初舍恩伯格和库克耶又出版了LearningwithBIGDATA: The Future of Education《与大数据同行——学习和教育的未来》一书,畅谈大数据与学习和教育的关系以及大数据将如何深刻影响到学习和教育的未来态势。(赵中建,张燕南2014)蔡翠红(2014)认为,大数据不仅迅速成为计算机行业讨论的热门概念,而且也开始渗透到国际关系领域。针对数字出版业发展迅速并产生海量数字出版数据这个现状,齐元军(2014)指出:“如何将大数据挖掘技术应用到数字出版业中,已成为出版行业目前研究的热点话题。”

大数据的应用前景广阔。但是,词典学研究和词典编纂可用的数据是大数据吗?词典学研究和词典编纂真的需要大数据吗?我们尝试从大数据时代词典学研究和编纂实践可用数据的特点出发回答第一个问题,结合汉英语际对应词的挖掘实例分析回答第二个问题,还简要探讨与数据或语料使用相关的问题。

二、 大数据与编纂词典的可用数据

1. 大数据的特点

传统意义上的“数据”指的是“有根据的数字”。现在,“数据”不仅指“数字”,还统称一切保存在电脑中的信息(包括文本、声音、视频等)。(赵勇,徐轲2014)在这个信息爆炸的时代,经过一定时间的积累就会出现海量或巨量的数据。过去,计算机存储信息或数据的计量单位用GB/Gigabytes(1GB=1024MB)就已经很大了。现在用到TB/Terabytes(1TB=1024GB),PB/Petabytes(1PB=1024TB=1048576GB),甚至更大的计量单位。但是,不能简单地认为数量大就是大数据。大数据的体量巨大,不仅存储量大,计算量也大,超出了传统数据处理方法所能管理和处理的能力。

现在具有代表性的观点是大数据具备4V特征: (1) 数据量庞大(Volume)。(2) 数据呈现多样性(Variety),不但类型多(如文本、网页、图片、音频、视频和位置信息等),而且来自多种数据源,不仅有结构化数据,更多的是半结构化数据和非结构化数据。(3) 时效性(Velocity),即数据增长速度快、变化速度快,处理速度也要求快,包括大量的在线或实时数据分析处理。例如电子商务对销售数据的实时快速分析就意味着能及时抓住商机。(4) 数据价值高(Value),但价值密度低,即价值与数据总量之比很低,需要对海量的数据进行挖掘分析才能形成用户价值。如在长时间连续的监控视频中查找犯罪线索,有用的数据可能只有短短几秒钟。(赵勇,徐轲2014;严霄凤,张德馨2013;宗威,吴锋2013)

2. 大数据的定义

信息时代的“数据”概念是明确的,但是对于“大数据”至今还没有一个公认的标准定义。

美国国家科学基金会(NSF)将大数据定义为:“由科学仪器、传感设备、互联网交易、电子邮件、音频视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集。”(黄南霞,谢辉,王学东2013)

李战怀、王国仁和周傲英(2013)从数据库研究者的视角对大数据进行了解读,认为大数据是个笼统的概念。他们指出:“与应用密切相关的各类数据都属于大数据范畴,大数据强调支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构数据;世界上凡是可以表达出来的信息都是数据;当为了一个具体的应用而需要把大量的不同类型、质量各异的数据及时进行处理时,这些数据就进入了大数据的范畴。”

胡雄伟、张宝林和李抵飞(2013)认为:“不存在严格意义上的大数据资源的定义,任何已有数据资源的汇集和整合就可以构成所谓的大数据资源。……大数据是各种类型的小数据的集合,通过各种类型的小数据整合、集合、集成处理,从中挖掘出潜在的新价值。所以说,大数据是小数据的再次利用和多次重复利用。”

3. 编纂词典的可用数据及特点

各行各业都有可能产生大数据,但是并非所有的数据都能用于词典编纂。

从是否付费的角度看,编纂词典的可用数据包括自有内部数据,可免费使用的外部数据和需交费使用的外部数据。

在大数据时代,除了语料库数据和已有词典数据,还有海量的其他电子数据可用作词典编纂的语料或知识来源。例如文本、网页、学术论文、期刊、电子书、博客、微博、跟帖、留言和问答记录。

编纂词典的可用数据具有大数据的典型特征。具体体现在下列几个方面: (1) 海量或巨量数据。许多机构多年积累的数据存储于各自的计算机上,有些可供联网调用,也有些可在本机安装后离线使用。每天都有大量新闻等网页信息发布或更新。大量电子期刊定期出版。(2) 异质、异构、类型多。有些数据是结构化的,但更多的可用的原始数据是半结构化的,甚至是非结构化的。数据源的文件格式也是纷杂的。如纯文本格式文件、网页文件、Office文件、WPS文件、XML文件、PDF文件、图像文件和影音文件。(3) 重复内容多。(4) 数据质量参差不齐。(5) 噪声干扰严重。

通过互联网等各种途径搜集或积累起来的单语、双语,甚至是多语语言资源,为词典编纂提供了丰富的语料或知识来源。但是将收集到的海量或巨量数据进行挖掘,找出规律并有效地加以利用才能创造价值。因此,挖掘和提炼出有价值的词汇知识对词典编纂工作来说至关重要。

三、 汉英语际对应词及其挖掘

1. 语际对应词

语际对应词(interlingual equivalents)指的是可插入性对应词(insertible equivalents),包括两种语言间的绝对对应词和部分对应词。

包双喜和斯日古楞(2007)指出: 一种语言的词,在基本意义上可以与另一种语言直接对译的词,彼此之间称为“对应词”;对应词是大量存在的,否则不同语言之间的翻译和交流就不能实现。

李明和周敬华(2000)在《双语词典编纂》一书中详细介绍和探讨过对应词的分类、在双语词典中提供对应词的方法、辨别对应词意义的手段,以及对应词的质量问题。他们发现双语词典编纂者在寻找(语际)对应词时可能会遇到三种情况: (1) 能找到绝对对应词(absolute equivalents;或称对等词);(2) 只能找到部分对应词(partial equivalents;或称局限对应词bound equivalents);(3) 找不到对应词,出现词汇空缺(lexical gap)。李明和周敬华(2000)认为: 除了绝对对应词和部分对应词,还可以把对应词分为翻译对应词(translational equivalents,又称插入对应词insertible equivalents)和解释性对应词(explanatory equivalents,又称描写性对应词descriptive equivalents)。他们建议把对应词分成插入性对应词和非插入性对应词。因为非插入性对应词只是词语的解释性翻译或描写性释义,所以不是严格意义上的对应词。插入性对应词有助于产出,而非插入性对应词有助于理解。在两者都可用的情况下,双语词典提供的插入性对应词在翻译方面对读者的帮助更大。

2. 现存问题

提供语际对应词是编纂双语词典的重要任务,也是专家们的共识。但是,提供地道实用的语际对应词的难度不小。正如曾泰元(2005)指出的那样,双语词典中对应词不够地道或不准确的现象并不少见,冗长的解释性释义依然存在。李安兴(2010)的研究显示: 国内一些汉英词典编纂者未能将前人(尤其是国内外翻译家)已经给出的一些汉语词语的佳译提供给读者。

通过构建语料库获取对应词的研究早已有之。我国的语料库建设和应用也有了实质性进展。尽管不少研究机构和出版社已经或正在构建与词典编纂和出版相关的语料库,但是各方都是专注建设自己的语料库或数字出版资源库,没有采用统一的数据标准。而且,仅仅依靠现有的语料库不能完全满足词典编纂的需要。再加上建设周期、更新速度和使用权限的限制,词典编纂人员实际可用的语料库并不像人们想象的那样全面。

3. 汉英语际对应词的挖掘探索

大数据时代的到来为充分利用包括网络资源在内的各种资源和技术编纂汉英词典打开了更广阔的视野。下面结合实例探索如何从纷杂的大数据中挖掘出编纂汉英双语词典所需的语际对应词等词汇知识。汉英语际对应词的挖掘是指从带噪声非结构化或半结构化的语料中找出未知的或未收录的汉语词语的英语对应词。

(1) 挖掘方法和步骤

语际对应词的挖掘技术和效果已有显著进步。微软的必应网络词典(http:∥cn.bing.com/dict/)就采用了此类技术。挖掘应该是自动的,但是因为目前可用语料缺乏集成或整合,挖掘结果仍需改进,我们实际使用的方法是根据关联关系,通过计算机和网络获取原始数据,经人工分析、甄别和提炼后得到最终结果。首先,采用数据驱动的方法确定汉语词目词或表达法。然后,利用必应网络词典的检索功能、百度(https:∥www.baidu.com/)等互联网搜索引擎和离线文本挖掘工具获得相关的英语对应词和英汉/汉英语句对。接下来,借助上下文关键词(KWIC)检索进行语际对应词语义对比和分析。最后,在大型语料库British News和UK-WAC(前者为英国英语新闻语料库,后者是英国的英语网页内容语料库;这两个语料库的检索起始页面为http:∥corpus.leeds.ac.uk/protected/query.html),以及COCA美国当代英语语料库(http:∥corpus.byu.edu/coca/)中检索英语对应词是否地道或是否符合英语的表达习惯。

(2) 挖掘实践

因为汉英语际对应词的挖掘涉及面很广,所以我们选取了十项有代表性的挖掘任务,结合典型实例展示大数据在词典学研究和词典编纂实践中的重要应用价值。

1) 补充汉语词语(尤其是新词)的对应词。对于源自英语的汉语词语,我们能够从英汉对照文本中找出地道的对应词或对等词(例如“债务上限debt ceiling”)。因为是直接借用英语中已有词语的词义,即便是使用了隐喻,也不难理解。一个汉语词或表达法有多个英语对应词的情况很常见。大数据有助于挖掘出更多更全面的语际对应词。例如“车展”的典型对应词有auto show,motor show和car show(见例1至例3)。

例1:THEstarofthisweek’sParisMotorShowwas a Jaguar supercar. 巴黎车展的本周之星是一辆捷豹跑车。——www.ecocn.org

例2:ThefirstprototypesarecurrentlyindevelopmentbutaconceptversionofthevehiclewasunveiledtodayattheDenverAutoShow. 第一个原型正在发展,而且一个概念版车亮相今天在丹佛车展。[原汉语译文像是机器翻译的结果。经人工修正后可译为: 第一代原型车目前正在开发中,但是该车型的一款概念车今天在丹佛车展上首次亮相。]——usa.315che.com

例3:FewatthelastFrankfurtcarshow, in 2009, could have predicted the industry’s sharp rebound from the global recession that year. 在2009年法兰克福车展上,几乎没人预料到汽车业会从当年的全球衰退中急剧反弹。——chinese.wsj.com

根据语料库词频数据对比,不仅可以找出“车展”的地道对应词,还可以判断出对应词的使用地域分布特点(见表1)。

表1 “车展”对应词的语料库词频比较

在英国英语中,motor show的词频最高,是“车展”的典型地道对应词。对应词auto show在British News语料库中的词频为零,这说明,英国的主流新闻媒体可能有意避开使用auto show;UK-WAC语料库的34个应用实例证实在英国也有人使用auto show(如“the Detroit auto show底特律车展”)。COCA美国当代英语语料库的检索结果证实auto show在美国英语中的使用频率最高,是美国英语中“车展”的典型地道对应词。语料库统计结果的横向比较显示,有人用car exhibition,但使用频率极低,分布不广。此外,UK-WAC语料库中的一个实例(preview or full screen mode, auto show, panorama mode)显示auto show不是“车展”,而是“自动播放”的意思。这些信息在汉英词典中应适当标注。

2) 区分义项,标注所属学科。如果专业术语的使用范围不断扩大,也会进入普通词汇。词典收录时,应根据学科领域划分义项并标注。例如: 近几年,中国人喜欢为所有健康、乐观、积极向上的人,以及催人奋进、给人力量和充满希望的事贴上“正能量”的标签。“正能量”源自英语中的positive energy。在心理学领域,“正能量”的意思是“积极的能量;正向的能量;积极进取的动力”。但是“正能量”原是物理学领域的一个概念,与心理学领域“正能量”的英语对应词相同,意思不同(见例4)。

例4:WefirstsawMasdarHQacoupleofyearsago,whenitwasaimingtobetheworld’sfirstpositiveenergybuilding. 我们几年前第一次认识了马斯达尔的总部大厦,当时它的目标是成为世界上第一个正能量建筑(也就是产生的能量大于消耗的能量)。——article.yeeyan.org

3) 验证两个或多个近义汉语词语是否有共同的对应词。例如: 英汉对照文本显示“民意测验”和“民意调查”有共同的高频英语对应词poll和opinion poll(见例5至例7的对照)。

例5a:MorethanhalfofAmericansinarecentopinionpollviewed China as an adversary, compared with 28 per cent who saw it as an ally. 在最近的一次民意测验中,半数以上的美国人视中国为对手。相比之下,只有28%的人认为中国是盟友。——www.ftchinese.com

例5b:Herapprovalratinginonerecentopinionpollwas only 15%. 她的支持率在最近的一次民意调查显示只有15%。——www.ecocn.org

例6a:However,Foysaid,thepollshould be interpreted with caution. 但是,他说民意测验应谨慎解读。——article.yeeyan.org

例6b:Theresultsofthepollshow Bill Clinton’s approval rating has gone up in his second term. 民意调查的结果显示比尔·克林顿的工作支持率在他的第二任期内提高了。——www.kekenet.com

例7a:Pollsshow the majority of French are against the reforms. 民意测验显示,大部分法国人反对这项改革。——www.voanews.cn

例7b:Pollsshow that up to half of Americans support the demonstrators or at least believe they reflect public opinion. 民意调查显示,多达半数的美国人支持这些示威者,或者至少认为他们代表了公众的意见。——www.fortunechina.com

4) 更新已成熟汉语新词语的英语对应词。对于刚出现的汉语新词,语料不足会影响其英语释义的可靠性,找到恰当的语际对应词也很困难。随着时间的推移,人们会逐渐找到英语中已有的可用对应词。大数据有助于搜集、审定并及时更新这类对应词。例如:“皮包公司”是二十世纪中国改革开放之后出现的一个新词,指“没有资金、场地和固定人员的商业组织”,因仅靠为数不多的成员手提皮包奔走于买卖双方而得名。这个汉语新词已经成熟。它的早期译文briefcase company很容易被误认为是“生产皮包的公司(a company that makes briefcases)”(叶小宝2000)。实际上,“皮包公司”是个空壳公司/外壳公司(shell company)(见例8)或虚假公司(bogus company)(见例9)。

例8:Longkongiscontrolledbyashellcompanyin Hong Kong, with little more than a mailing address. 龙岗旅游被一家仅有通信地址的香港外壳公司控股。——article.yeeyan.org

例9:Theboguscompany’s location turned out to be an ordinary residential apartment with the room number removed, the newspaper said. 据该报纸报道,这家皮包公司的办公地点是一处被抹去房间号的普通民宅。——www.chinadaily.com.cn

用dummy company(虚设公司;挂名公司;傀儡公司;秘密代营公司)或fly-by-night company(无信用公司;不可靠公司;唯利是图的公司)也可以表达“皮包公司”的意思,但这两种表达法的使用广度不如shell compay和bogus company。表2是“皮包公司”英语对应词的语料库词频比较。

5) 梳理对应词并分类。词典对词语的收录不应回避社会生活的负面状况。有些词语描述的是社会转型过程中出现的负面状况,汉语中有,英语中也有。如“傍大款”就是个典型的例子。从互联网上能搜索到“傍大款”的多种英译表达。表3是必应网络词典中“傍大款”的网页挖掘结果(根据2015年3月1日的检索结果复制)。这个挖掘实例既展示了网页文本挖掘的重要作用,也暴露出自动挖掘结果的不足之处。

表2 “皮包公司”英语对应词的语料库词频比较

表3 必应网络词典中“傍大款”的网页挖掘结果

(续表)

从表3可以筛选出“傍大款”的英语对应词,但必须排除噪声干扰。首先是第一项中的of a girl被错误提取并列为对应词。它出现的频率高,但只是括注。接下来是第一项和第六项中都有lean on a moneybags。看上去moneybags的前面加冠词a不符合语法,但实际上moneybags是单复数同形,其前用冠词a是可以的。而第五项和第八项中的a moneybag只有“钱袋”之意,没有“大款;阔佬”的意思。第四项与第七项给出的对应词结构相似,但是一个用介词for,另一个用to。第五项列出的结果是lean on a moneybag,接下来的第六项却出现了与之不一致的to lean on a moneybags。第八项错误地提取出beer belly(将军肚;啤酒肚)作为“傍大款”的英语对应词。

经人工整理,并参考其他来源的挖掘结果,能提炼出下列可用的英语对应词: (of a girl) find/have a sugar daddy; (be a) gold digger; lean on/live off a moneybags; find a fat cat; be a rich man’s mistress。例10至例12是应用实例。

例10:Anddon’tyoutakethattonewithme,yougolddigger. 不许用那样的语气对我说话,你这个傍大款的。——www.douban.com

例11:Most[of]herfriendsadmirethatsheleansonamoneybags, but she is not happy. 很多朋友都羡慕她找了个有钱人(傍大款),可是她一点也不幸福!——dictsearch.appspot.com

例12:Please,historysuggestswedon’thaveasugardaddywho will take care of the problem. 历史表明,我们并没有一个可以解决问题的大款来傍。——www.imsci.cn

6) 找出同一词语在不同语境中使用的英语对应词,并根据对应词的词性分组。一词多译是翻译中的普遍现象。通过大数据挖掘,可以搜集到同一词语或词义在不同语境中使用的语际对应词。把它们按词性分组后,有助于对应词的选用。例如: 下列词语都有“毫不留情”的意思: ①毫不留情(地)without mercy; mercilessly; relentlessly; unsparingly; in no uncertain terms;②毫不留情(地)give/get no quarter; lash back(毫不留情地予以回击);③毫不留情(的)be relentless/unsparing/implacable/inexorable; be tough on sb.。如果要表达“绝不容忍”的意思,则可从①will not be tolerated; don’t put up with;②no-tolerance等对应词中选用。

如果汉语中已经存在多个近义表达,但又出现了新的源自英语的汉语近义词,其英语对应词容易辨认且稳定,应收录并单列词条。例如:“零容忍”已渐渐成为人们关注和讨论的热点。“零容忍”不仅能表达“毫不留情”“毫不迁就”“毫不宽容”“绝不容忍”“绝不留情”,以及“决不姑息”的意思,而且含义明确,态度坚决,英语对应词zero tolerance在汉英跨语言交流中的信息传递既直接又准确(见例13至例16)。

例13:Baltimore,forexample,hasadoptedazero-tolerancepolicy in dealing with kids who miss school. 例如,巴尔的摩在处理失学儿童问题时采取零容忍的政策。——article.yeeyan.org

例14:StaffofficershaveinsistedtheArmy’spolicymustbe“zerotoleranceto all forms of discrimination”. 参谋人员坚持认为军队的政策必须是“对一切形式的歧视零容忍”。——article.yeeyan.org

例15:MrWolfowitzhasespousedapolicyof“zerotolerance” towards graft and corruption in the bank’s staff and activities. 沃氏已经支持在世行职员和业务中对贪污和腐败采取一项“零容忍(zero tolerance)”政策。——www.ecocn.org

例16:NewUefapresidentMichelPlatinilastweekcalledfora‘zerotolerance’ approach to football-related violence. 仅在上周,新一届的欧足联主席普拉蒂尼还呼吁对足球暴力采用“零容忍度”的对策。——www.mufans.org

7) 增补新出现的对应词,但需区分词性。例如: 英语中的mutually beneficial可以表达“(互利/互惠)双赢的”意思(见例17和例18)。

例17:ChinawilljoinhandswiththeUKtofurtherpromotemutuallybeneficialresults out of the dialogue. 中方将与英方一道,共同推动对话取得更多互利双赢的成果。——www.hjenglish.com

例18:Thesestatisticsspeakvolumesforthemutuallybeneficialnature of China-US economic relations and trade. 这些数据充分表明中美经贸关系是互利双赢的。——www.fmprc.gov.cn

英语中的win-win是“双赢(的)”地道的新对应词。但win-win既可用作形容词,也可用作名词,词典收录时应区分词性。例19至例22是win-win用作形容词的实例:

例19: “Inthefuture,wehopethetwosidescanholdtalksonmutualtrustandcreateawin-winsituation.” he said.“我们希望,将来我们双方可以本着互相信任的原则举行对话,实现双赢的局面。”他说。——www.suiniyi.com

例20:Buthewentontosaythata“win-win” solution could be found where a dialogue could yield candidates suitable to both sides. 但他接着指出,双方可以找到一个“双赢”的解决方案,即通过对话,找到双方都认可的候选人。——www.ftchinese.com

例21:Ourobjectiveistoforgewin-winpartnerships in which both countries gain and which further contribute to the strength of the friendship. 我们的目标是双赢,两国共获益,进一步加深加强两国间的友谊。——article.yeeyan.org

例22: “Ipersonallythinkthesecountries’investmentinAfricaandLatinAmericacanbenefit[everyone]sothatitiswin-win.” he said. “我个人认为这些国家在非洲和拉丁美洲的投资可以造福[所有人],因此它是双赢的。”他说。——www.scidev.net

英语中的win-win也常用作名词(见例23至例25)。区分词性有助于理解词语的语法功能,从而提升参考价值。

例23:Theprojectcouldbeawin-winfor the two nations as they seek to build expertise and market share in the emerging clean energy sector. 鉴于两国在清洁能源行业寻求积累专业知识和市场占有率,该项目可能为两国创造双赢的局面。——www.america.gov

例24:Inaworseningeconomicclimate,itwouldbeharderforthebigeconomiestoseetheirrelationshipsasmutuallybeneficial—asawin-win. 在日益恶化的经济气候下,大型经济体之间将越发难以看到多方互惠(也称之为双赢win-win)的关系。——article.yeeyan.org

例25:Itcanbesaid,thebeesintheplantflowersfornectarforbeesandplant,isatypical“win-win”. 可以这样说,蜜蜂在植物花朵上采蜜,对蜜蜂和植物来说是典型的“双赢”。——www.cnqr.org

8) 增补旧词的新义项,匹配目前可用的基本对应词,添加必要的词法信息和辨析内容。有些旧词有了新用法,但是由于特殊的社会文化背景,没有最合适的对应词,只能找到英语中基本对应的词。例如:“土豪”原指“旧时地方上有钱有势横行霸道的坏人(local bully; local tyrant; local despot)”。后来指那些在网络游戏上舍得花大钱的玩家。2013年,“土豪(气质够土;花钱够豪)”成了讽刺和调侃的流行语,指有钱但品位差的暴发户或新贵。

英语中已经有个源自法语的名词nouveau riche /nuvriʃ/,字面意思是the new rich,指那些品位不高且爱炫富的暴发户。这个词与“土豪”的新词义最接近。从牛津词典网络版(http:∥www.oxforddictionaries.com/)查到的两条词法信息对于正确使用nouveau riche也很重要,汉英词典中应予以标注。这两条信息是: (1) nouveau riche用作复数名词(treated as plural);(2) nouveau riche前面的限定词通常用the(usually the nouveau riche)。应用实例参见例26和例27。

例26:Sheisoneofthenouveaurichein her hometown. 她是当地的暴发户之一。——article.yeeyan.org

例27:Theworld’stopluxuryvehiclesareastatussymbolforChina’snouveauriche. 对于中国的富豪来说,世界顶级豪车似乎已经成为了一种身份的象征。——article.yeeyan.org

根据焦瑞娟(2013)的研究,汉英词典有必要提供对应词辨析信息。经核查,英语单词parvenu(复数形式为parvenus)的意思也是“暴发户;新贵”,但这个词语体正式,没有“土豪”所含的“品位不高”“爱炫富”和“粗俗”等意思,也没有讽刺和调侃的意味。有人用rich rednecks表达“土豪”的新词义。土豪既有乡下人也有城里人,但redneck(乡巴佬;红脖子)指美国文化水平不高且政治观点保守的乡下人,含贬义。

2013年,许多人预测,tuhao(土豪)有望在2014年被收录进《牛津英语词典》。但2015年3月1日的检索结果显示牛津词典网络版还没收录tuhao这个词。不过,根据沪江网塘生春草(2013)的介绍,法语中又出现了与“土豪”更对应的新词riche péquenaud。用作形容词时,péquenaud的意思是“土里土气的”;用作名词时,意为“乡下佬”。将来英语会借用源自汉语的tuhao还是源自法语的riche péquenaud?现在还无法下结论。但是有一点是肯定的: 跟踪语言的发展变化,及时记录,客观描写,根据大数据来确定。

9) 准确把握词义,区分易混淆的对译词或对应词。例如:“外资”的对译词有foreign investments, foreign capital, foreign funds,但是在有些语境下需要译成overseas investments。使用时还需分清是“外国投资;来自外国的投资”还是“海外投资;在海外投(的)资”。

“海外投资;在海外投(的)资;投资海外;境外投资”的英语对应词是investments overseas和overseas investments(见例28和例29)。

例28:Indiansarepermittedtoinvestupto$200,000perfinancialyearinoverseasinvestments. 印度政府规定,印度人每个财务年度可以进行最多20万美元的海外投资。——chinese.wsj.com

例29:Bigstate-ownedenterpriseswouldlobbyformonthstoconvincetheirregulatorstoapproveinvestmentsoverseas. 大型国企会花费数月时间游说,以说服监管部门批准它们进行海外投资。——www.ftchinese.com

如果“外资”的含义是“外国投资;来自外国的投资”,仍需使用foreign investiments这个对应词(见例30和例31)。

例30:Whilethepileofmothballedforeigninvestmentsin China keeps growing, Korean investors are sweeping up. 尽管越来越多的外国投资项目在中国被搁置,但韩国投资者却在收获果实。——www.ftchinese.com

例31:CFIUSisaninter-agencycommitteeresponsibleforreviewingthenationalsecurityimplicationsofforeigninvestmentsin U.S. companies. 美国外国投资委员会是美国政府的一个跨部门机构,负责审查外资投资美国企业如何影响美国国家安全。——c.wsj.com

10) 找出经打磨和修正的新译文或对应词。新词的翻译常有这样的情况: 因为理解有误,表达欠佳,或原词的内涵发生了变化,到了一定时候,人们不得不对某些译文进行修正甚至另觅新译。(杨全红1999)近几年我国常提到“法治”和“依法治国”,其英译就经历了一个打磨和修正的过程。

首先是介词by和of的选用问题。陈中绳(1998)曾指出“法治”应译作rule of law。贾钊(2014)解释说,rule of law表示没有人能在法律之上,而rule by law则可以指政府用法律施行统治、推行其决策;rule by law有可能被解读为“The law is a tool of the government(法律是政府的工具)”;中国古代法家提出的“以法治国”,恰好可译成rule by law,因为当时的“以法治国”强调的是为君主统治服务。贾钊总结说“在事关原则问题的翻译上,真的不可盲目套用西方的成品,因为用别人的标准说自己的事情,总是说不大清的”。

翻译“法治”和“依法治国”还需根据语境选用动词或措辞。何海波(2011)在《中国行政法若干关键词的英文翻译》这篇论文中的结论是: 依法治国,如果直译,govern the country according to law是最好的;govern the country in accordance with (the) law非常正式,但略显冗长;rule the country in accordance with (the) law 也是非常正式,但rule透露出一种居高临下的统治意味,除非有意传达这层意思,建议不用;manage state affairs according to law重在强调依法管理国家事务,与“依法治国”相比,含义偏窄;run the country according to law 非常口语化,不够正式。此外,根据何海波的梳理,英译“依法行政”和“法治政府”时,需要注意: administration according to law是“依法行政”的简洁佳译,用administration in accordance with the law则略显冗长;如果强调“依法而为的行政”,law-based adminstration更能简明地传达它在中国当下语境中的官方含义;在表述中国官方文献时,“法治政府”译作law-based government更通用。

中国共产党十七大报告和十八大报告英汉对照版中“依法治国”的英译就及时吸纳了“法治”和“依法治国”的英译修正研究成果(例32选自十七大报告,例33选自十八大报告),这不仅准确反映了汉语原文的含义,也能帮助外国读者更准确地了解中国建设法治国家的决策。

例32: 坚持依法治国基本方略,树立社会主义法治理念,实现国家各项工作法治化,保障公民合法权益。Wemustupholdtheruleoflawas a fundamental principle and adopt the socialistconceptoflaw-basedgovernanceto ensure that all work of the state is based on the law and that the legitimate rights and interests of citizens are safeguarded.——http:∥language.chinadaily.com.cn/2007-10/31/content_6218870.htm

例33: 依法治国基本方略全面落实,法治政府基本建成,司法公信力不断提高,人权得到切实尊重和保障。Theruleoflawshould be fully implemented as a basic strategy,alaw-basedgovernmentshould be basically in function, judicial credibility should be steadily enhanced, and human rights should be fully respected and protected.——http:∥language.chinadaily.com.cn/news/2012-11/19/content_15941774.htm

现在从互联网上查到的“法治”和“依法治国”的英译五花八门,许多网页中提供的是有错误或过时的翻译。为防止以讹传讹,汉英词典在修订时必须剔除错误的翻译或过时的译文,并及时收录经打磨和修正的译文或对应词。

(3) 小结

大数据时代词典编纂实践的可用数据是丰富的,但也是纷杂的。从可用的大数据中可以挖掘出编纂词典所需的词汇知识,潜在价值高但价值密度低,目前还离不开专业人员的判断和解读。由于数据是不断变化的,收集到的数据有可能是过期的、无效的,甚至是错误的。数据之间也有可能存在不一致,甚至是相互矛盾的现象。要发挥大数据的价值,必须接受它的纷繁复杂,必须能够去伪存真做出正确的判断和解读。

四、 数据或语料使用的相关问题

使用大数据还需注意与数据使用相关的几个问题并关注其前景,包括大数据集成问题、知识产权的尊重和保护,以及数据资源的开放和共享。

1. 大数据集成问题

词典编纂的可用数据散布于不同的数据管理系统中,在数据分析之前需要先进行数据集成。由于数据量大、异质、异构和多样性等原因,大数据的集成面临巨大挑战。由于资金投入和利益分配等问题,跨部门语言资源共享和交换存在障碍,大量数据横向不联、纵向不通。大数据语言资源的建设者是否能够得到合理的经济回报直接影响建设的规模、周期、更新速度、质量和积极性。

要防止大数据集成后出现数据垄断,以免对大数据的利用和知识的传播形成阻碍。

2. 知识产权的尊重和保护

在大数据时代,数据使用方应提高对知识产权的尊重和保护意识。如果是网络词典,应标注数据或语料的来源;如果是纸质版词典,应在致谢页或参考文献处注明。

在尊重知识产权的前提下,针对词典编纂过程中使用大数据的典型问题,需达成行业共识,找出解决方案。例如,从大数据中抽取到的已被广泛使用的原创对应词译文是否需要付费?只参考了一两行的内容,如何付费?如何判断谁是原创?

推行具有可操作性的稿酬支付机制,探索快速代理授权和代理付费模式,提高交易便捷度,使著作权人能获得相应的版权收入。

3. 数据资源的开放和共享

齐元军(2014)研究过大数据时代数字出版版权保护的难点与策略。他指出: 大数据时代的数据共享思想对传统的版权保护制度提出了新挑战。有人认为目前的版权保护制度过于严格,阻碍了知识的传播,呼吁减少版权保护的一些限制条款。在大数据时代,数据资源的开放和共享正成为全球化的趋势。许多国家的政府和组织已建立专门的数据网站,为数据的共享和挖掘创造条件。有些著作权人接受网络时代共享和免费的理念,愿意免费将其作品分享,而不采取传统的版权保护模式。

五、 结语

随着计算机和互联网在各行各业的广泛应用,信息爆发式增长,累积的数据量越来越大,逐步形成了大数据这个概念。现在已经到了开始引发变革的程度。

词典编纂可用或可参考的数据具备大数据的典型特征,通过关联关系能够从中挖掘出隐含的词汇知识或有用信息,在词典学研究和词典编纂领域具有重要的应用价值。从纷杂的大数据中挖掘或抽取出编纂词典可用的知识并非易事。传统的数据库技术、数据挖掘工具和数据清洗技术在处理方式、速度和分析能力上都面临挑战。在现阶段,计算机和工具软件只能起到辅助作用;挖掘目标的设定,挖掘结果的筛选、分析、抽取和利用还离不开复合型专业人员的参与。操作者需要掌握大数据分析技术,能够从海量数据中发现变量间的相关性,解读大数据的挖掘结果,敏锐地提取出有价值的信息。

大数据时代强调的是分析所有相关数据,而不是仅仅依靠采样分析。因此,必须重视大数据环境下的数据库建设和集成,完成从传统的结构化数据存储处理方式向同时兼具结构化和非结构化数据存储处理方式的转变。

现在,网络词典和电子词典已经成为发展方向。词典的呈现形式和赢利模式都在发生变化。我国的词典编纂和出版已经向数字化和网络化迈进了一大步,但是针对词典编纂的大数据集成和自动分析技术还不成熟,工具欠缺,数据存取及管理的系统处理经验不足,词汇知识的挖掘技术水平亟待提高。研究大数据的收集、集成和分析技术,从纷杂的大数据中挖掘出编纂双语词典所需的语际对应词等词汇知识有助于编纂出符合用户需要的双语词典,促进知识传播和国际交流。

参考文献

1. 包双喜,斯日古楞.小议对应词.内蒙古民族大学学报,2007(3).

2. 蔡翠红.国际关系中的大数据变革及其挑战.世界经济与政治,2014(5).

3. 陈中绳.《汉英词典》(修订版)的错谬.汕头大学学报,1998(1).

4. 韩蕊.企业大数据已进入应用摸索阶段.互联网周刊,2013(19).

5. 何海波.中国行政法若干关键词的英文翻译.行政法学研究,2011(3).

6. 胡雄伟,张宝林,李抵飞.大数据研究与应用综述(中).标准科学,2013(10).

7. 黄南霞,谢辉,王学东.大数据环境下的网络协同创新平台及其应用研究.现代情报,2013(10).

8. 贾钊.法治:ruleoflaw还是rulebylaw?.国际先驱导报,2014-11-04.http:∥ihl.cankaoxiaoxi.com/2014/1104/552794.shtml.

9. 焦瑞娟.内向型汉英词典中动词词目英语对应词辨析问题初探.辞书研究,2013(3).

10. 李安兴.关于汉英词典编纂方法与理论创新问题的思考.中国出版,2010(24).

11. 李明,周敬华.双语词典编纂.上海: 上海外语教育出版社,2000.

12. 李战怀,王国仁,周傲英.从数据库视角解读大数据的研究进展与趋势.计算机工程与科学,2013(10).

13. 齐元军.大数据时代数字出版版权保护的难点与策略研究.科技与出版,2014(11).

14. 塘生春草.土豪法语怎么说?法媒解读中国新词,2013-12-26.http:∥www.hjenglish.com/fr/p558423/.

15. 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代: 生活、工作与思维的大变革.盛杨燕,周涛译.杭州: 浙江人民出版社,2013.

16. 严霄凤,张德馨.大数据研究.计算机技术与发展,2013(4).

17. 杨全红.简论汉英新词新语的翻译.中国翻译,1999(3).

18. 叶小宝.评《汉英词典》修订版释义的翻译.四川外语学院学报,2000(4).

19. 曾泰元.语料库与汉英词典编纂.辞书研究,2005(1).

20. 赵勇,徐轲.大数据时代的公共资源交易前瞻.招标采购管理,2014(12).

21. 赵中建,张燕南.与大数据同行的学习与教育——《大数据时代》作者舍恩伯格教授和库克耶先生访谈.全球教育展望,2014(12).

22. 宗威,吴锋.大数据时代下数据质量的挑战.西安交通大学学报,2013(5).

(马立东广东外语外贸大学词典学研究中心广州510420)

(吴光华大连交通大学辞书研究所辽宁116028)

(责任编辑李潇潇)

*本文得到了《世纪汉英大词典》项目的支持。该项目2012年被列为“十二五”国家重点图书、音像、电子出版物规划增补项目,2013年又被国家新闻出版广电总局列入《2013—2025年国家辞书编纂出版规划》。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!