当前位置:首页 期刊杂志

广播新闻语料库的教材加工

时间:2024-07-29

广播新闻语料库的教材加工

张小林,唐靓,任雪花

(电子科技大学成都学院文理系,四川成都611731)

摘要:首先简要介绍了基于自建广播新闻语料库进行新闻听力教材编写过程中语料库的设计、语料的收集及处理。然后详细讨论了该教材的总体架构,并结合实例介绍了教材编写中语料的选编、语言知识的呈现及教材练习设计等细节。

关键词:语料库;广播新闻;教材加工

文章编号:1672-6758(2015)06-0127-4

中图分类号:H319

作者简介:王云,硕士,讲师,石家庄铁道大学四方学院。研究方向:商务英语教学法、翻译、文学。

基金项目:河北省教育厅高等学校人文社会科学研究重点项目“实用型商务英语课程优化和教学有效性研究”(编号:SD141029);河北省教育科学研究“十二五”规划青年专项课题“新媒体时代下实用型英语多模态教学研究——以建构主义为视角”(编号:1404550);石家庄铁道大学四方学院高等教育教学改革研究项目“基于需求分析的高校英语专业课程设置与英语创新应用型人才培养模式研究——以石家庄铁道大学四方学院为例”(编号:201501)。

一引言

语料库语言学为英语新闻听力教材的编写提供了新的视角。然而,直到近些年才开始有学者对这一课题进行探讨。张鹏、辛柯(2008)讨论了如何自建广播新闻语料库,并指出广播新闻英语语料库为新闻英语听力教材的编写提供了丰富的素材,编写者可以方便地从语料库中选取所需材料,并在语料库样本的统计基础上对所选材料的难易度进行有效控制。杨林伟、伍忠杰(2012)详细介绍了建设基于Web的多模态广播新闻语料库的方案,并讨论了该广播新闻语料库在英语专业听力教学中的应用。翁晓斌(2012)指出了语料库在英语新闻听力教材编写中的强大优势,并提出了具体的规划方案。上述研究为基于语料库的英语新闻听力教材的编写提供了有益的参考。但这些研究大多停留在宏观讨论阶段,忽视了新闻听力教材编写的细节问题,尤其是语料库教材加工的讨论。本文将介绍笔者在基于自建广播新闻语料库进行广播新闻听力教材编写过程中语料库的设计、语料的收集及处理,并详细介绍该教材的总体设计及教学材料的选择、安排和加工等细节问题。

二广播新闻语料库的建设

1.语料库的设计。

语料库的设计是语料库建设中尤为重要的阶段,它直接影响到所建语料库的质量并进一步影响到以后基于所建语料库的研究工作。(Sinclair, John 1995)根据Kennedy(1998)的观点,语料库设计过程中应考虑四个方面的问题:(1)语料库是语言的静态样本还是动态样本?(2)多大程度上可以成为语言或语体的代表?(3)为了满足某种研究目的,语料库规模应该多大?(4)应该包括多少个样本,每个样本应该多大?根据实际需要和便于操作原则,本研究选择建设静态语料库,库容设计为100万词,①收集近三年来国际主流英语新闻广播媒体的新闻报道作为语料,共计2000个样本,样本平均大小约500词。

2.语料的选取及收集。

本研究收集了近三年来VOA和BBC的新闻报道作为语料。VOA和BBC是国际主流英语新闻广播媒体,其新闻语料具有充分的代表性且较容易通过互联网获取。McEnery(2001)指出,语料库并非语言样本的简单堆砌,而是按照一定的语言学原则,借助统计学方法,随机抽取语料样本建立的计算机可读的语言资料库。鉴于VOA和BBC报道的数据量相当庞大,为避免语料收集的主观性,本研究采取分层和等距相结合的抽样方法。首先按新闻内容(灾难、政治、经济、军事等)和新闻的来源(VOA、BBC)分层,然后将3天作为一个抽样间距,抽取某一固定时间点的广播新闻语料样本,以便克服简单随机抽样所造成的内容上的偏差。语料收集既要收集文本也要收集音频,且收集好的文本和音频还需再次人工核对,以保证文本和音频的完全对应。

3.语料的处理。

按照设计原则收集的原始语料是生语料,为方便进一步的使用,需要进一步处理,包括处理冗余数据,语料文本头加注和赋码。多余的空格及空行等冗余数据需要删除以免影响后续的赋码准确性。同时,为了方便语料分类,每篇语料需要加注文本头,提供诸如主题内容、语料来源、收集时间、节目播出时间、播音员的性别、口音、语料长度等相关信息。最后,使用语料自动赋码软件Treetagger对文本进行赋码,该软件准确率可达96%。由于本研究所建语料库为广播新闻语料库,所以文本处理更重要的一点是制作字幕文件,为语料添加时间标签(如图1),这样才能实现文本、声音的相互关联,这也是现代语料库朝多模态发展的趋势之一。除文本加工处理外,收集到的声音也需要进行规范化,本研究统一采用标准Mp3格式。

图1 加工完成的字幕文本

三广播新闻语料库的教材加工

1.基于语料库的教材总体架构。

在收集加工好的语料基础上进行教材开发,同时开发纸质和电子教材。如图2所示,纸质教材承载着基础知识教学的功能,展示英语新闻听力中的核心知识,所选材料具有经典性和代表性。电子教材的规模比纸质教材大,包括文本、音频及学习软件,它既是纸质教材的源头,同时也是纸质教材的拓展。

图2 基于广播新闻语料库的教材总体设计

2.语料库的“教材加工”。

McCarthy(2001)、Widdowson(2003)以及Braun(2005)等学者指出语料库不能直接应用于语言教学,只有经过“加工”才能走进语言教学的各个层面。我们选取的用于编写纸质教材的语料以及语料库检索得到的相关信息,也需要经过加工处理才能呈现在教材上。梁红梅、何安平(2012)考察了国内外基于语料库开发的EFL教材,总结出语料库的教材加工可以从三个方面着手,即教材语料的选编、语言知识的呈现及教材练习的设计进行。本项目充分考虑了广播新闻自身所具有的特点,如大量使用专有名词、术语,播音的语音、语调多样化及语速较快等,从这三条对语料进行了加工,下面我们将举例详细介绍。

(1)教材语料的选编。

教材语料的选编属于语料库内容层面的“加工”。首先,应用检索软件将语料库按话题分别生成词频表,找出高频词。同时,将各词频表与大型普通语料库(本研究使用COBUILD语料库作参考)提取的词频表相比较,得到该新闻话题类别的核心词和语块,再进一步根据统计信息来选择具有代表性的语料入选教材,如:

①WorldNewsfromtheBBC

②Morethan100peoplewerekilledand5000othersinjuredinapowerfulearthquakeinIranonTuesday.

③TheDowJonesAverageclosedatitshighestlevelinmorethanfouryearsonTuesday.

④TheUNSecurityCouncilhasdecidedtosendanadvanceteamofceasefiremonitorstoSyria.

⑤TheWorldHealthOrganizationtodayraiseditspandemicflualertleveltofive.

以上句子是语料库中的高频句,都含有新闻核心词汇。这些词句是收听广播新闻时经常会碰到的,所以非常适合选入教材,以帮助学习者快速掌握。同时,对于此类句子,选取了不同广播电台的播音录音,以便帮助学习者熟悉不同的语音、语调等播音风格,快速提高相关英语新闻的听力能力。

(2)语言知识的呈现。

语言知识的呈现属于语料库技术层面的“加工”。语料库检索的索引行或其他相关的统计数据往往需要以隐性的方式在教材中呈现出来,也就是说在教材中只需提供目标词及其常用搭配和结构的频数信息,而无需要告诉读者这些信息的来源出处以及为什么要提供这些信息(McCarten 2010)。例如,在本研究自建的广播新闻语料库中检索interest一词(图3),发现新闻报道中interest在大多数情况下表示“利息”,且有一些常见固定搭配。

图3 “interest”语料库检索部分结果

虽然这些语言知识点都来自语料库的检索结果,但在编写教材时不能直接采用语料库的检索界面,而应该以教师和学习者都非常熟悉的形式把目标语言点的使用频率及其典型意义和用法呈现出来(如图4)。

图4 语料库的语言信息在教材中的呈现

(3)教材练习的设计。

教材练习的设计亦属于语料库技术层面的“加工”。Willis(1990)、McCarthy(2004)及Braun(2005)等学者一致认为,仅仅把反映语言事实的语言材料呈现给学习者是不够的,还应在此基础上设计有利于提升意识的练习,以引导学习者通过分析、体验和探究去发现和归纳语言的使用范式。也就是说,对语料的“加工”还应贯穿在教材的练习设计之中。在教材编写过程中,编者可以从语料库中提取目标语言点的索引行,然后以学习者熟悉的形式呈现在教材中,即以含有目标语言点的整洁的句子或语篇呈现出来,而非直接提取的检索行。在此基础之上,编者再设置练习任务,引导学习者利用自身语言体验来分析、探究、归纳目标语言点的使用特点。例如:

Beijing

1. a city in China.

Duringaweek-longtriptoAsiathatheistaking,SecretaryGeithnerstoppedoverinBeijingandmeetwithhisChinesecounterpart.

2. Chinese government.

Washington'sso-calledpivottowardAsiaismakingBeijingwary.

听下面的句子,注意辨别句中的出现的“Beijing”哪些是表示地名,哪些是代表政府。

①Beijingisaccusedofkeepingtheyuanartificiallylow,tosupportitsexportsector.

②Some30highwayshaveclosedinthenorthofChinaandinBeijingthecity’sCapitalairportsaw90%offlightscancelledordelayedonSunday.

③Beijingistryingtoreduceitstradebalance,butit'sgoingtotaketime.

④ThedetailedreportssaytheNorthKoreanleaderisspendingthenightinthecityofDalianbeforeheadingtoBeijing.

⑤Inflationisatitshighestlevelinmorethantwoyears,andtamingitisatthetopofBeijing'spolicyagenda.

该练习首先展示了“Beijing”这一专有名词在英语新闻中的意义,然后从广播新闻语料库中提取一批含有“Beijing”的语料,并在此基础上设置练习,要求学习者根据上下文来辨别句中的出现的“Beijing”所表达的意义。

四结语

本研究基于自建的广播新闻语料库,结合广播新闻的的特点,对新闻语料进行处理加工,编写了一本新闻听力教材。实践证明,语料库技术能够为EFL教材的编写提供有效的帮助和指导。相信随着技术的发展,未来必将会出现更多集声音、图像和文本一体的多模态语料库,并将为各类EFL教材的编写提供更重要的便利和支持。

注释

①Kenndy(1998)认为句法结构和高频词汇的研究一般要求语料库规模在五十到一百万词次之间。

参考文献

[1]Braun, S.From pedagogically relevant corpora to authentic language learning contents [J].ReCALL, 2005(17): 47-64.

[2]Kennedy, G.AnIntroductiontoCorpusLinguistics[M]. London & New York: Addison Wesley Longman Limited, 1998.

[3]McEnery, T. & Wilson, A.CorpusLinguistics:Anintroduction[M]. Edinburgh: Edinburgh University Press, 2001.

[4]McCarthy, M.J.IssuesinAppliedLinguistics[M]Cambridge: Cambridge University Press, 2001.

[5]McCarthy, M.J.FromCorpustoCourseBook[M]. Cambridge: Cambridge University Press, 2004.

[6]McCarten, J. Corpus-informed course book design[A]. In A. O’Keeffe & M. McCarthy (ed.).TheRoutledgeHandbookofCorpusLinguistics[C]. London & New York: Routledge Taylor & Francis Group, 2010. 413-427.

[7]Sinclair, J.Corpus,Concordance,Collocation[M]. Oxford: Oxford University Press, 1995.

[8]Widdowson, H.G.DefiningIssuesinEnglishLanguageTeaching[M]. Oxford: Oxford University Press, 2003.

[9]Willis, D.TheLexicalSyllabus:ANewApproachtoLanguageTeaching[M]. London: Collins COBUILD, 1990.

[10]梁红梅,何安平. 语料库的“教学加工”与教材编写[J]. 当代外语研究,2012(10):35,39,76.

[11]翁晓斌. 语料库语言学视角下的英语新闻听力教材设计[J]. 中国电力教育, 2011,29:199-201.

[12]杨林伟,伍忠杰. 基于Web的多媒体新闻语料库的建设与实施——以听力教学与研究为目的的设计模型[J]. 现代教育技术,2012(8):72-76.

[13]杨学前. 在听力教学中使用英语广播新闻材料的四条原则[J]. 外语电化教学,2000(1):13-15.

[14]张鹏、辛柯. 广播新闻英语语料库的建设研究[J]. 西北工业大学学报,2008(3):63-66.

Pedagogic Processing of a Broadcast News Corpus

Zhang Xiaolin,Tang Liang,Ren Xuehua

(Department of Arts and Sciences, Chengdu College of UESTC, Chengdu, Sichuan 611731, China)

Abstract:This paper first briefs the design and data collection of a broadcast news corpus and then details the structure of the corpus-based broadcast news listening course book. With examples, it also presents the teaching material selection, language point’s presentation and exercise design of the book.

Key words:corpus;broadcast news;pedagogic processing

Class No.:H319Document Mark:A

(责任编辑:蔡雪岚)

王霞,硕士,讲师,石家庄铁道大学四方学院。研究方向:商务英语教学法、文学、翻译。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!