当前位置:首页 期刊杂志

高职微型英语语料库的建设研究

时间:2024-05-19

【摘 要】大型语料库包含的语料信息非常庞杂,它们对于语言用法的研究、教材和词典的编写有着重要的意义。然而对于一线高职英语教师而言,大型语料库的数据冗余使得针对其的观察研究费时费力,实用性不够强。自建小型或微型的语料库有助于丰富外语教学环境,开展以课堂为中心的实证教学研究。但多数教师认为自建语料库难度太大、技术要求过高、时间和精力投入难以达到。实际上,教师可以通过使用网上可获取的电子化文档、利用有效的语料库软件,把精力集中于语料库内容的选取和呈现上。本文介绍微型语料库建设的可行性、方法、步骤以及应用,借以提倡广大一线高职英语教师利用科研成果丰富和提高自己,让高职英语教学更加科学化和客观化。

【关键词】微型语料库;高职英语;检索软件

中图分类号: H319.3 文献标识码: A 文章编号: 2095-2457(2018)01-0056-002

【Abstract】The corpus information contained in the large corpus is very complicated.It is of great significance for the study of language usage, teaching materials and dictionaries. However, for first-line vocational English teachers, the data redundancy of large-scale corpus makes the observation and research on it time-consuming and laborious, and the practicability is not strong enough. Self-built small or mini corpus helps to enrich the foreign language teaching environment and carry out the classroom-centered empirical teaching research. However, most teachers think that the difficulty of self-built corpus is too high, the technical requirements are too high, and time and effort are hard to reach. In fact, teachers can focus their efforts on the selection and presentation of corpus content by using the corpus of available electronic documents available online. This article introduces the feasibility, method, procedure and application of the construction of miniature corpus, in order to promote the majority of first-line vocational English teachers to use scientific research to enrich and improve themselves, to make higher vocational English teaching more scientific and objective.

【Key words】Micro corpus; Vocational English; Retrieval software

0 引言

语料库语言学自20 世纪 60 年代初期开始发展,是一门新兴的语言学分支学科,现在理论和技术两方面都已趋于成熟。它致力于研究真实的语言数据,研究者需要借助语料库检索工具对语料文本进行检索、取样、分析和统计,从而发现原本未留意的语言在真实语境中使用的模式和规律[1]。近年来,越来越多的学者和专家投入到语料库的研究中,语料库应用涉及到语言研究的方方面面。

与此同时,大型通用语料库迅猛发展,数据规模急速变大,目前已经达到了几亿形符[2]。如英国国家语料库BNC(British National Corpus)收集了各种来源的书面、口头语言样本1亿字;美国当代英语语料库COCA(Corpus of Contemporary American English),截至2017年11月共收录超过5.6亿字的语言材料。大型语料库包罗万象、语料样品多,但是繁多的语料和复杂的语境使得产出数据复杂,学习者或者研究者仅靠人工观察想在结果中找出特定的内容或者发现规律犹如大海捞针。相比较而言,自建语料库建库目标明确、更新速度快、针对性强,适合特定教学对象的难度和兴趣。而且本机操作,经济快捷。

但是在国内,语料库建设方面的研究常见于本科院校,高职院校此方面的探索较少。本文以笔者自建的《绝望主妇》对白语料库为例介绍微型语料库建设的步骤和方法,并对如何使用微型语料库辅助教学进行了简单探讨。

1 自建微型语料库的可行性

语料库,顾名思义就是语言材料库,其中存放的是在语言的实际使用中真实出现过的语言材料。梁茂成等(2010)将其定义为“一个按照一定的采样标准采集的、由若干个电子文本构成的、具有一定容量的‘电子文本集,并且这些电子文本可作为一个整体代表某语言或者某语言的某种变体或文类”[3]。

人们一般认为构建语料库是一个花费大量人力物力的工程,大量数据的获取和材料的规范型电子化听起来就很难。实际上,随着计算机技术的发展、网上电子文本的日益丰富、如ABBYY Fine Reader 之类OCR软件的广泛使用,个人收集大量真实的语料不再是一件非常困难的事情[4]。其次, WordSmith、AntConc、WordPilot和CQPweb等語料库软件提供了有效的技术支持。此外,个人语料库的规模不会很大、建库要求不是很严格、语料加工程度也不用很深,所以个人建设微型的教学语料库是完全可行的。

2 高职微型语料库的创建

事先设计对于语料库建设非常重要,即使是微型教学语料库,也是如此。建立语料库需要有明确的目的,它直接影响了语料库的类型和规模,并最终决定语料的选择和整理的方式[4]。此外还要考虑取样标准、设备、存贮方式和格式等因素。笔者在设计语料库时,考虑到目前使用的教材语言不够地道、与现实生活相脱节、缺少对应视频辅助这些情况,目标是创建一个带视、听、读资源的微型教学语料库,激发学生的学习兴趣、丰富化学生的学习体验。

2.1 语料的选择、采集

为了保证语料的真实性,教学语料库应选用母语人士的语言材料。在选择时,优先选用网上已有的电子化语料可以简化语料库建设的人力和物力。网上英语语言材料十分丰富,不仅有来自各个网站的最新语料,还有一些专门的电子文本库、电影电视剧本等。此外,如果研究者找不到符合建库目的现有电子文本材料,还可以利用OCR软件电子化纸质材料再进行校对。

笔者建库主要是为了使之服务于教学,希望语料内容尽可能生活化、语言的难度符合高职听说教学的要求,并有音频、视频材料作为有效补充,所以在对比了《老友记》、《生活大爆炸》、《摩登家庭》和《绝望的主妇》四部英语学习者非常喜爱的美剧后,选择了生活气息比较浓厚、主要演员发音地道、对白语速适中的家庭伦理剧《绝望的主妇》。该剧包含很多精彩的台词对白,尤其是每集故事解说中使用的语句词汇,非常值得细心品读[5]。笔者通过互联网搜集到现已播出的八季英中对照字幕文档。

2.2 语料的分类和整理

收集的语料应按照一定的原则进行分类,分类原则在参考大型语料库分类标准的基础上兼顾实际应用需要。创建语料库文件时,需要将每一个文本独立存放,存档为txt纯文本格式且以英文字母形式命名,这是大多数语料库软件支持的格式。文件命名格式也应该统一,方便语料库的后续补充添加。笔者采集的是美剧对白语料,为了便于根据检索结果定位至相应视频片段,就直接按照相应的剧集将八季文档分为8个文件夹、178个txt文本。

从网络获取的文件,一方面其文本信息可能会有一些错误,要仔细核对;另一方面文本会存在不合规范的符号和格式,影响到检索结果的正确性和可靠性,需要批量清洁与整理。笔者在实际操作中首先使用了EditPadPro、PowerGREP进行文本格式的转换和清洁,然后通过Super Batch Renamer统一重命名文本,得到了178个生文本,之后根据相应剧集视频快速核对这178个文本语言信息的正误,同时删除多余的空格和空行,減少冗余数据的产生。

2.3 语料的标注和赋码?

标注是大型语料库的重要规范之一,对语料库的生文本进行标注可以为语料库带来增值[6]。按照国际通用的COCOA标准,标注多位于文件的首行,提供的相关信息放入尖括号“<>”中,便于识别。

语料的赋码是一种特殊的标识,它分为词类赋码和句法赋码两类。在进行词性赋码之前,应确定赋码方案,常见的赋码方案有CLAWS赋码系统、TAGGIT系统和Brills tagger 赋码系统[7]。赋码标注过的语料库可以进行较为复杂的检索和分析,从而发挥更多的作用;未经赋码的语料库被称为生语料库,只能进行词汇层级的检索。笔者选用了常用的赋码工具Tree tagger对自建语料库生文本进行自动词性标注。

2.4 微型语料库的使用

经过整理和标注后的电子文本集中存放在某个文件夹中,就是自建的微型语料库。研究者必须借助语料库检索工具,如Word Smith、AntConc,对语料库进行检索应用。

比如在进行大学英语第二单元“how to express thanks and respond to it”的授课时,学生遇到了owe这个疑难词,笔者通过在对白语料库中检索“owe”获取了批量的语例、并截取了相应的视频片段,应用于课堂讲解中,使得教学更生动、直接,学生的学习兴趣更加浓厚。再比如鉴于动词在句子中的灵魂性作用,笔者要求学生优先掌握一些常用动词的用法,这时就运用了AntConc的词汇表功能,统计绝望主妇各季中的高频动词。比如经过概率统计可知,第一季23剧集中高频使用了was,have,know,are ,get,go,like,want,think,did这十个动词,然后再分别以这十个词为关键词进行检索,可以其具体的语境的使用情况。

在语料库实际应用中,一方面教师可以运用语料库工具观察和分析语料库呈现的语例,发现语言规律和特征,使教学更具针对性;另一方面教师也可以引导学生分组讨论从语料库中筛选出的多行词语索引项,自行进行推断、归纳和总结规律,参与自身的知识构建中来。这响应了以学生为中心的二语习得教学原则,也是甄凤超(2005)所强调的“语言的习得不是一个从教师到学生的简单过程,而是一个由学生自己发现和探索的过程”的体现[8]。

3 结语

综上所述,自建微型语料库加深了高职英语教师对语料库的认识、提高了自身的教学能力和专业素养。教师利用语料库工具加工、处理语料,应用于高职英语课堂教学,不仅为教学带来了丰富、有趣、地道的新资源,而且拓展了教学方法和教学技术,从而丰富了学习者的学习体验,让高职英语教学更加多样化、科学化和客观化。但由于受到语料库语言学、二语教学理念以及相关技术的限制,高职英语教师关于“在教学中构建和使用微型教学语料库的研究”还不够充分,有待进一步、更深入的探索。高职教师应该经常更新教学理念、提升科研能力,然后将语言学和二语习得方面的一些新发现、新成果积极运用于课堂实践。微型语料库的建设涉及收集、分类、整理和标注多个环节,需要研究者投入相当多的时间和精力,但回报是非常丰厚的。尤其是标注环节,标注的种类越多,在检索时运用正则表达式能提取的语言信息就越多,也越能发挥语料库的教学效力和功用。此外,研究和应用的过程也是一个教师不断学习和提高自我的过程。

【参考文献】

[1]何安平.语料库语言学与英语教学[M].外语教学与研究出版社,2004.

[2]杨惠中.语料库语言学导论=An Introduction to Corpus Linguistics[M].上海外语教育出版社,2002.

[3]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.

[4]谢家成,谈宏慧.学习者英汉平行语料库的建设与运用[J].长江大学学报(社会科学版),2009,32(2):87-89.

[5]李影.语料库在高职高专英语词汇教学中的应用[J].阜阳职业技术学院学报,2017,28(1):44-47.

[6]梁茂成.词性赋码语料库的检索与正则表达式的编写[J].中国外语教育,2009(2):65-73.

[7]郑志恒.美英报刊英语标注语料库建设研究[J].外语研究,2007(2):32-38.

[8]甄凤超.语料库数据驱动的外语学习:思想、方法和技术[J].外语界,2005,04:19-27+40.

[9]Graeme Kennedy.语料库语言学入门[M].外语教学与研究出版社,2000.

[10]何安平.语料库与外语教学[J].国外外语教学,2001,03:15-19.

[11]谢家成.论个人教学语料库的构建[J].外语电化教学,2003,03:27-30.

[12]许葵花,张卫平.论语料库语言学在外语教学中的应用[J].外语与外语教学,2003,04:21-24.

[13]徐曼菲.小型语料库在外语教学中应用研究[J].广东第二师范学院学报,2007,27(4):98-102.

[14]岳豪.利用AntConc在外语教学中自建小型语料库[J]. 河南工程学院学报(自然科学版),2008,04:44-47.

[15]李影.论话语标记语so的语用功能[J].阜阳职业技术学院学报,2014,02:81-84.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!