时间:2024-05-25
吴丽华
(信阳职业技术学院 应用外国语学院,河南 信阳 464000 )
语料库的数据存储、加工和管理功能以及其对语言研究的促进作用已在相关领域形成共识。Halliday[1]指出,“语料库将语料收集、分析等与相关研究理论阐述直观、有机地结合在一起,这使人们对语言的理解发生了深刻的质的变化”。随着信息技术的快速发展,大型数据库和语料库日趋普及和成熟,语料库已更多地运用到语言研究、教学及翻译等领域。在大数据时代和互联网+背景下,建设一个优质的教学型语料库不仅可为医学英语教学提供语料素材和数据分析,引导学生的学习兴趣和提升他们的自主学习能力,还可为翻译学、语言学等领域的研究提供较好的科研平台和可持续性利用资源。
专门用途(ESP)语料库是特定领域语言的反映,可广泛应用于语言培训、词典编纂、机辅翻译、课程教学等领域。Sinclair[2]曾指出,大型语料库的建设已趋缓,建设规模较小且专业针对性更强的ESP语料库将是语料库建设的发展趋势。国际上有代表性的ESP语料库,主要有Hyland 创建的多学科学术期刊论文语料库、欧洲议会平行语料库(European Parliament Proceedings Parallel Corpus)等。由杨惠中和黄人杰于1983年主持建成的上海交大科技英语语料库JDEST是国内建设的第一个学术英语语料库。后来比较有影响力的是中国石油大学广州分院的祝启波所创建的石油英语语料库(GPEC)。近十年以来,国内一些学科领域也相继建设了专门用途英语语料库,例如常熟理工学院汉英政治平行语料库查询系统 (Query System for Parallel Corpus of Political Texts, CSLG)、解放军外语学院建立的军事英语语料库(Corpus of Military Texts)和新闻政论语体俄语语料库、北京第二外国语学院开发研制的全国公示语翻译语料库(它主要由其公示语翻译研究中心研制并负责维护)。
但迄今为止,国内有关医学英语语料库的建设及应用研究寥寥可数,能在线检索的语料库只有南方医科大学外国语学院研制的“医学英汉双语平行语料库”,该语料库主要为广大医务工作者和科研人员提供英语医学论文写作和翻译参考服务。通过国家图书馆检索到的相关文献较少,主要涉及医学英语语料库理论设想和意义研究等,如广东医学院张文青(2008)提出医学英语写作语料库的构想,闻永毅(2003)和薛学彦(2004)提出建立中医英语语料库的设想,罗永胜(2012)和倪传斌(2005)分别探讨的是医学英语语料库和中医英语语料库的建库原则。由此可见,医学英语教学型语料库建设严重滞后,在大数据时代和多元教学形势下,建设医学英语语料库是医学英语教学工作的必然趋势。
“语料库的建设之所以有这么迅猛的发展,正是归因于其对于语言教学研究、翻译研究、翻译教学、翻译技术开发(如机辅翻译工具)、双语词典编纂等方面的显著成就,它在翻译学、教育学、语言学和自然语言处理等研究领域具有巨大的潜在应用价值”[3]。建立一个结构科学、设计合理的医学英语教学型语料库,可填补本领域教学型语料库建设的空白,在医学英语教学研究领域为教学、科研工作者提供一个跨学科的学术视野。医学英语语料库的设计和研制将涵盖医学、翻译学、计算语言学、语料库语言学、机器翻译、词典编辑学等多种学科领域,它不仅可以推动这些学科之间的交叉发展,而且对医学英语学科建设具有示范引领作用。
医学英语教学型语料库可为医学英语教学提供具有前瞻性的数据驱动型教学方法,即“利用语料库生成索引(concordances)来帮助语言学习者发掘目标语型式(pattern)中的规律,并根据词频统计、排序等检索结果为教学设计者提供丰富的学习活动和研制题库等”[4]。在大数据环境下,将计算机网络技术普及到各个不同的领域是大势所趋,一个好的语料库是一个可以反复利用的资源,它能够满足多种研究目的和教学实践。设计一个科学的教学型语料库,可为医学英语教学工作提供可行的辅助手段,实现教学内容、教学技术现代化,教学效果测评科学化,为同一层次高等学校提供可借鉴的基于语料库的医学英语教学模式。纵观目前的双语语料库建设,专门应用于教学的语料库还相对缺乏,医学英语语料库的研制也可为其他领域的专门用途语料库建设提供良好的范式和可持续性利用的资源。
3.1.1 专业性原则 教学型语料库是一种专门语料库,它不同于通用语料库,基于医学英语术语多、语体正式的特点,在选择语料时应注重术语的专业性表达和翻译,还应考虑所选语料的专业特点和难易程度。此外,所采集的语料是否具有语料样本的代表性。鉴于语料库的建成主要应用于医学英语课堂教学过程的实际,主要是帮助教师和学生以所用教材为基础更直观有效地掌握医学英语专业术语、理解基本句型结构和巩固语法点,因此可选择目前医学英语教学中一些主流的、权威的系列教材作为其主要的语料来源。
鉴于医学英语语言严谨、客观、专业性强的特点,对于双语语料的对齐、标注和检索问题要纳入标准,同时应考虑后期研究中的文本风格、语言对比、语言习惯、句法模式、词性标注、标点符号的使用特征等问题。总之,要重点建设专业性比较强、实用性较高的医学英语教学型语料库。
3.1.2 动态性原则 随着医学领域的国际交流与合作日益频繁,医疗信息的动态性、时效性日益显露,一些医学新概念、新词汇层出不穷,这使得医学英语语料库的建设必须注重时效性,做到与时俱进。对语料的更新、扩充、修订以及后续新语料的标注就显得尤为重要。医学英语教学型语料库的规模不一定要大,由于本领域中并无可共享的实际的专门用途语料库,在规划和创建教学型语料库过程中应首先考虑其可持续性,即提高其长期使用价值。语料库建成后,应随着教材的变化而不断扩充和变化,并进行定期管理和维护。
研制语料库首先要明确建库的目的,语料库的使用者及覆盖范围决定着语料库语料的选取。例如,语料库语言学领域的专家——广东外语外贸大学桂诗春教授和上海交通大学的杨惠中教授,在他们主持建设中国学习者英语语料库(CLEC)时,就首先确立了该库的建库目的[5]:一是通过语料库统计工具分析中国英语学习者在写作中的常规错误和典型错误,为中国外语教学特别是英语写作教学提供直观的数据反馈和较为客观的研究;二是将英语语言方面的学习者语料库与国外的一些英语本族语的语料库进行对比研究,给予宏观的数据反馈。通常来讲,语料库的规模设计,只要条件允许,应该是越大越好,但教学型语料库因自身各种条件和适用对象及学科的限制,通常难以达到较大规模。而且,就语料库的特点而言,从未来发展趋势来看,建立固定规模的语料库并不会成为语料库发展的客观趋势,因为语言本身就是动态发展的,每隔一段时期有新的语言现象出现,也有时兴的语言结构或现象被淘汰,语料库的语料也应当是动态的,是可以不断变化或增容的。医学领域的专业知识,如药品研究、临床试验、治疗方法、医疗器械、耗材等,其前沿性强,更新频率高,医学英语教学型语料库主要在实际的课堂教学中应用,因此规模不宜过大,否则会影响教学效果和误导学生的学习方向。本语料库初期库容暂定为20万词,对于常规的医学英语课堂教学,该库完全能够提供充分的语料检索资源。
语料库的库容或规模主要反映量的问题,而语料的来源及采集则是反映语料库质的问题。对于语料来源,最重要的是保证语料的真实性。首先,要保证所选的语料是该领域中实际使用的文本,所选的语料不是建库人杜撰的;其次,所选取的语料要符合建库预期设定的条件。例如要建立的是教学型语料库,其中一个功能就是分析学生实际的医学英语知识的掌握能力,选取学生作业作为其中一部分语料时,就要甄别这些作业里有没有学生自己抄袭或使用机器翻译的现象。
医学英语语料的采集首先应选自高校中主流的医学英语教材、权威的出版物或官方网站文本,如我国卫生部或美国食品药品管理局的中英文网站。其次,如上面提及的,学生的作业也是语料库的重要来源。学生是语言教学的重要对象,因此,收集学生的作业等文本作为大量的原始语料,能更客观、更快捷地了解自己的学生对于语言运用的习惯、特征和掌握程度。这样就可以制定更为详尽的教学计划,也可以为教学研究带来更切实的实例和数据统计。
3.3.1 语料录入 录入语料时,在语料的抽样范围以及语料的体裁覆盖方面,建库者要尽可能多地保持平衡性,竭尽全力追求语料的代表性,“要让有限的文本语料尽可能多地反映无限的真实语言现象的特征”[6]。医学英语语料库的语料来源形式大体上可以分四种:纸质版(选择性较少)、电子版(Text文本)、网页(HTML文本)以及一些医学权威机构的字幕文件(subtitle file)。与传统的语料录入工作相比较,充足的网络资源和计算机软件使得语料库语料的获取变得方便快捷,例如光盘资料、在线语料资源、互联网资源等,建库者也可选择制作电子文本或利用现有的电子文本。目前语料库所需电子文本制作的主要方式为光电扫描输入(OCR技术)、人工键盘输入及手写笔输入。
3.3.2 语料校对 由于医学类语料的特殊性,在语料录入完毕后应及时进行机辅自动校对和人工校对,严防专业性错误。校对人员对专业术语或概念性表述,应认真核对、严格把关,谨防出现对病人治疗或健康会造成潜在危害的致命性错误。为提高效率,语料库的校对环节建议人工校对和自动校对并重。自动校对建议使用黑马自动校对软件,可精确校对专业性术语、缩写、中英文拼写、标点、数字、重句、异形词等各种类型的错误。
3.3.3 语料的加工与存储 语料的加工就是对原始语料即生语料进行标注,利用语料库相关功能及词性标注软件等将各种表示语言特征的赋码标注在对应的语言成分上,如单词的语义、词性、时态、搭配等。由于教学型语料库主要应用于教学过程和教学研究,词性标注是重点,这有利于词汇、术语、语法和句型的讲授。语料库的对齐方式为句级对齐,对语料实行分词和自动词性标注,也可根据实际需要对语料进行术语及句型自动标注。
在本语料库中,英语文本的词性标注(POS Tagging)将采用Lancaster University Claws工具进行,应用的是C7标记符集。使用中科院的汉语词法分析系统(ICTCLAS)对中文语料进行分词及词性标注,由于汉语词性标注软件存在一定的错误率,为保证标注的准确性,研究人员将进行人工纠错。在存贮方面,“将元信息与文本分别独立保存,就是使元信息脱离该文本本身,对文本内语言信息的快速检索就会更快捷”[7]。
医学英语语料库的在线检索平台应既有单机平台的功能,也具备机器翻译辅助功能。可结合语料库检索软件ANTCONC、Wordsmith Tools、Paraconc 或Multiconcord以及翻译记忆交换文件(tmx)生成和解析系统。常见索引工具的基本功能包括关键词索引与排序、词频统计、词表生成、主题词提取和搭配词统计,语篇方面有语篇统计、词丛统计、词语型式统计以及词图统计等[8]。
医学术语是医学英语教学及教材编纂中的关键和难点,在语料库的研制阶段,应将术语库的自动生成作为主要技术目标之一[9]。这一点可借鉴机器辅助翻译软件Trados或在线辅助翻译系统MemoQ的术语库创建和生成步骤,将对齐后的双语文本导入数据库,可自动生成外交平行语料库的术语库,在术语库中进行检索时,可以针对英汉两种语言的术语进行检索。
语料库一旦建成后,应该对其进行日常的管理与维护甚至升级。日常管理包括确保友好的用户界面、保证数据的准确性及权威性,并保证检索速度等。维护的主要内容包括语料的平衡比例、语料的更新、语料库测试等。
常见的教学型语料库在语言课堂教学中主要应用于词汇教学、阅读分析教学、语法教学和文体学教学,其涉及到的教学法包括以词汇为中心的教学法、数据驱动型教学法和任务驱动型教学法等。掌握医学英语的关键就是医学词汇和术语,语料库则为词汇教学打开一条切实有效的通道[10]:首先,针对医学英语众多的专业术语,语料库可提供准确高效的词频信息。高频词在前后语境中聚焦显现,学生可获得对所学术语的较高关注度,而教师讲解时也可重点针对。其次,语料库可提供任一单词或术语的前后语境信息,获取大量语言事实,弥补教师凭个人知识和主观讲解的不足,可营造真实、专业的语言环境,短时间内让学习者获取所学词汇的所有语境信息。此外,基于语料库设计的各种练习和高频词术语表可以帮助学生提升自主学习能力及相互合作的意识。
语料库的发展和应用越来越普遍,通过运用语料库进行的一些教材对比研究表明,许多的外语教材甚至是主流教材有明显不足之处,尤其针对教学对象来说,教材编写中的编撰人的主观性逐渐受到质疑。国外已有学者利用语料库对某些领域的外语教材进行了对比性研究,通过语料库反馈的数据来检验这些教材的内容是否符合真实的或实际的语言面貌。他们的研究表明,不运用实证方法编写的教材会对语言学习者起误导作用,例如教材编写中运用语料库就能使实际语言环境中最常用的语言结构相比于不常用的语言(句子)结构得到更多的重视。语料库在医学英语教材编写中可有如下应用[11]:一是对于教材的编纂,语料库是其所需文本的重要语料来源。语料库可对真实语料进行系统分析,在很大程度上,可降低日常外语教学的盲目性,这对教材编撰者来说尤其重要。二是通过系统量化分析可确定教材的难易程度,包括统计某些词在一个语篇中的分布情况及出现频率,就可以客观判断该语篇的体裁和难度,使编撰者对于取舍有了量化标准。三是通过检索软件的词频统计功能,确定所编章节的重要词汇,合理安排每个章节的教学内容。根据语料库中的词频顺序确定高频词语及其相关搭配词,这有助于确定外语教学的重心、宏观方向和先后顺序。
借助医学英语语料库进行医学英语翻译研究及提高医学英语教学效果和教材编写质量,成为医学英语教学改革所要研究的课题之一,但目前在这方面的研究和实际的投入、建设等还相对空白,而诸如美国、日本等国在教学领域已开始探索多模态语料库建设,即除了创建传统的文字数据库外,还要创建有声数据库、图像数据库,由此可见,探索和构建优质的语料库任重而道远。此外,语料库资源共享困难重重。就语料库的动态性和专业性而言,一个语料库的价值与其被使用的范围和程度应当成正比关系。纵观国内,能够提供在线索引的语料库非常有限,不排除有很多已被研究者建成的小型或专门用途语料库,但绝大多数或在小范围的语料库研究者中使用,或研究完毕后束之高阁[12]。语料库所具备的动态特征决定了它的不足之处只有在大范围的使用中才会被发现,进而得以改进和提升。针对医学英语语料库建设,不管是教学型还是语言研究型,都离不开各个部门、各个专业之间的沟通和合作,以避免人力浪费和重复建设。学科之间的通力合作不仅能拓宽研究思路、提高研究质量,也可推进大数据时代下各高校学科建设和多元化教学与研究。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!