当前位置:首页 期刊杂志

基于语料库的《暮光之城》系列小说词汇特点初探

时间:2024-07-28

杨秀珍 续 娜 刘美瑜(天津科技大学外国语学院,天津,300222)

基于语料库的《暮光之城》系列小说词汇特点初探

杨秀珍 续 娜 刘美瑜(天津科技大学外国语学院,天津,300222)

借助语料库检索工具WordSmith,对比分析了由《暮光之城》系列小说组成的自建语料库与BROWN文学语料库BROWN(K-R)。通过对比两库中词长、词汇密度、词频等层面的特征,试图阐释《暮光之城》系列小说的词汇特征。

语料库;《暮光之城》;BROWN(K-R)文学语料库;词汇特征

《暮光之城》是近年来风靡全球的热销系列小说,共包括《暮色》、《新月》、《月食》以及《破晓》等四部,在40个国家发行,销量超过1000万册,连续152周登上《纽约时报》最畅销书排行榜,被誉为继“哈利·波特”系列之后最受年轻人欢迎的小说。美国总统奥巴马曾提到他和女儿都是不折不扣的“暮迷”。小说中缠绵悱恻的爱情故事固然吸引了许多来自不同文化及不同年龄层读者的目光,而对于语言学者们来说,构成小说重要部分的词汇特征也具有着不可忽视的研究价值。语言研究者借助语料库检索工具对来自语料库的数据进行量化分析,可以观察到用传统方法无法发现的很多语言事实,从而对语言本身进行更加客观的描写和解释。语料库语言学同词汇特征研究相结合,则为研究提供了更加科学的数据支撑,从而使结果更具客观性,继而增加了解释的说服力。因此,借助语料库及检索工具的定量分析方法,对《暮光之城》系列小说组成的自建语料库(约61万词)以及Brown语料库中文学类文本,即BROWN(K-R)(共计约25万词)中的词汇做了对比和分析。通过对比两库中词长、词汇密度、词汇分布等层面的特征,试图阐释《暮光之城》系列小说的词汇特征。

一、语料库语言学

所谓语料库语言学是指:“以语料库为基础的语言研究和语言分析。基于语料库的分析具有其他传统分析方法难以比拟的优越性。这一优越性在很大程度上得益于计算机的使用。计算机使得辨别、分析语言使用的复杂模式及存储和分析大宗自然语料成为可能。基于语料库的分析具有如下基本特征:(1)它是经验性的,分析的是自然语篇中语言的真实使用模式。(2)它利用大型的、在一定原则指导下收集而来的自然语篇作为其分析基础。(3)它广泛利用计算机的自动和互动技术作为分析工具。(4)它既要求定量分析技巧,又要求定性分析技巧。语料库语言学主要有两个研究目标:其一,描述语言结构及其变体;其二,描述某些语篇群。”所以,在不同的场合精心选择词汇和语法结构以实现表达得体是文学文体学研究的重要方面。对于外语学习者来说,运用语料库手段分析文学作品词汇的方法有助于提高学习外语的效率,增强选词、用词的能力,从而提高对外国语言文化的欣赏水平。

二、词汇特征

Leech和Short提出语言文体特征主要包含:词汇特征、语法特征、修辞格、语境、衔接五大类(张德禄,1998:49)。由于这些分析方法都需要首先对语言特征进行描述,随着计算机在语料库分析中的介入,这种描写的精确性和有效性得到了很大的提高。目前,基于语料库的文本词汇研究主要在以下方面展开:(1)基于词汇的研究:从出现及出现频率的角度探索词汇的出现语境;(2)研究有语法标注的词汇共现,看这些词汇如何组成句型并为句法应用的量化分析提供基础。由此,依据此模式对《暮光之城》全系词汇特征试做分析。

经过wordlist功能对《暮光之城》全系及BROWN(K-R)文本中词汇分布对比,数据见图1:

图1 两类语料库单词分布图

经观察得知,BROWN(K-R)语料库中所占比例最大的单词词长为3个字母,占总词汇的32.93%,4字母单词次之,占27.30%,两者共占总词汇量的60.23%。而《暮光之城》中词长3字母的单词占比例的20.03%,词长为4字母单词次之,占比例的19.07%,数值十分相近,二者共占总词汇量的39.1%。词长5字母和6字母的单词分别占11.21%、8.89%,2字母单词所占比例16.61%。BROWN(K-R)文学语料库中词长2字母单词所占比例15.64%,词长5字母和6字母的单词分别占11.85%,8.97%。通过卡方检验得知:两类语料库2字母单词p<0.01,有显著性差异。词长是决定文本难易程度的一个重要指标。由2-5个字母组成的词看作是小词或常见词,这些词在整个语料库中的比例越高,近似地反映出该语料库中的语料使用的小词或常见词越多,文章就越浅显。单词越短小,文本越易理解,难度越低,文本的正式程度就越低;反之,单词越长,文本越不易理解,难度越大,文本越正式。以上结果表明尽管作者用词难度趋近Brown,但总体词汇经计算词长得出结论偏简单,与一般的文学作品相比阅读起来更容易。为了进一步说明这一特征,作者引入词汇密度,通过计算文本中实义词所占总体词汇比例说明文本难易程度的指标。作者选用UCREL开发的CLAWS自动附码系统对两类语料库做了词性附码(POS tagging)处理,采用的是分类详细的CLAWS7附码集,CLAWS自动附码系统的准确率可以达到96%以上,因此能够保证研究结果的可靠性①关于CLAWS自动词性附码系统和CLAWS7BROWN(K-R)附码集的详细情况可参见http://ucrel.lancs.ac.uk/claws/。经过CLAWS自动词性赋码后的语料库,词性赋码指识别并标注语料库中所有词汇的词性,通过观察计算不同词性词汇的分布,统计文本词汇密度说明文本难易程度。

(一)词汇密度

词汇密度(Lexical Density)在一定程度上反映了文本的某种本质特征,即用词的多样性。测量词汇密度的主要工具是类符/形符比(Type/Token Ratio,简称TTR),不同容量的语料库类符/形符比不具可比性,故一般用标准化类符/形符比(Std.TTR)来衡量语料库的词汇密度。表1为WordSmith提供的 WordList功能分别统计的《暮光之城》系列小说和BROWN(K-R)语料库的类符、形符、类符形符/比以及标准化类符/形符比。

表1 两个语料库类符、形符的相关统计

从表1中可以看出BROWN(K-R)的std TTR值略高于《暮光之城》。需要说明的是Std.TTR统计的类符包括实义词和功能词,过度修饰的篇章由于功能词的增多也可能造成Std. TTR的数值提高,而不意味着语篇信息量的加大。因此,为了更严格地进行用词变化的计算,需要运用Ure(1971)提出的词汇密度公式:

词汇密度=实词数÷总词数×100%

英语中的词汇密度(lexicaldensity)也有助于我们认识英语书面语体的正式程度。词汇密度指的是一个语篇中实义词的平均值。Ure(1969)指出,词汇密度是区别语体正式程度的一个标准,语体越正式,词汇密度越高;相对的词汇越口语化,密度越低。为了更清楚认识这一点,我们必须辨清实义词和虚词的定义。英语词汇分为两类:实义词(content word)和虚词(grammaticalword或functionword)。实义词包括名词、动词、形容词、大部分副词等;虚词包括限定词、介词、代词、连词、关连副词、助动词等。表2为通过WordSmith工具统计出的两类语料库中名词、动词、形容词词性码所占比例。

表2 两类语料库词性码所占比例

表2中列出了《暮光之城》全系中名词、动词、形容词、副词各占全文的百分比和BROWN(K-R)文学语料库中名词、动词、形容词,副词各占总文本的百分比。所以,《暮光之城》系列小说的词汇密度(即实词比率)是名词、动词、形容词、副词所占总文本的百分比之和,也就是《暮光之城》的词汇密度是54.35%,同理得出BROWN(K-R)文学语料库词汇密度为59.96%。运用统计学有关原理对上述两个语料库的词汇密度进行卡方检验,检测两个语料库的词汇密度是否存在显著性差异,进而分析成因及其词汇特点。经计算得出显著性 p值<0.01,也就是说两类语料库的词汇密度存在显著性差异,《暮光之城》全系的词汇密度不及BROWN(K-R)文学语料库词汇密度高。Halliday曾对英语口语体和书面语体材料做了对比分析,他发现正式语体的词汇密度高,并具有名词化(nominalization)特征,而非正式语体词汇密度较低,名词化倾向较弱。书面语就可以经过一番的思考和推敲,显得更加正式、严谨。语篇氛围越严肃,作者对所使用的词汇就越精雕细琢。Halliday(1985:91)认为,非正式的语体,特别是口语体,在呈现经验和现象时,讲话人是在说话,在用语言讲述所发生的事件或所做的事情,把经验和现象当做动作来描述,因此多采用动词。非正式书面语体的词汇密度低,书面语词汇密度高,信息量大;而口语词汇密度低,包含信息量小,但是句子结构灵活多变、复杂。赋码后的文本不但为计算词汇密度提供便利,同时也使不同词性词汇分布如形容词、副词使用情况一目了然,如例1所示。

例1:Charlie was waiting for me with the cruiser.This I was expecting,too.Charlie is Police Chief Swan to the good people of Forks.My primary motivation behind buying a car,despite the scarcity of my funds,was that I refused to be driven around town in a car with red and blue lights on top.Nothing slows down traffic like a cop.

在本段中共有4句,描述主人Bella的父亲Charlie是一位警察,作者仅用了4个形容词good,primary,red and blue。上述四个形容词是最常见的形容词,表意模糊,涵盖的范围较广。作者较少选用形容词,且仅用最常见的词汇描述作为主人公之一的父亲,这一文体特征离不开作者的宗教背景。Stephanie Meyer毕业于全美最大的教会大学Brigham Young University,主修英国文学,是笃信后基督教(即摩门教)教义的教徒,这使得她的作品中不会有任何吸毒、性爱或者暴力情节出现,甚至连一句脏话也难寻。鉴于上述,《暮光之城》系列简洁明快,没有冗余的形容词和副词修饰,读后给读者以一目了然、脉络清晰的质感。

(二)词频分析

《暮光之城》系列主要是以人类女孩伊莎贝拉·斯旺(Isabella Swan)和吸血鬼少年爱德华·库伦(Edward Cullen)缠绵悱恻的爱情故事为主线,整合了吸血鬼传说、狼人故事、校园生活、恐怖悬念、喜剧冒险元素的长篇小说,适合青少年阅读。《时代》周刊(Times)曾如此评价:“充满着爱恨情仇的张力,但又优雅精致如简·奥斯汀,达到了浪漫小说的一种极致。”下面就作品是否以围绕Bella和Edward为主题,是否适合青少年阅读做一考证。表3为经Wordlist功能得出的《暮光之城》和BROWN(K-R)的词频表及高频词,因篇幅所限,本文仅列出前20词。

词频表反映的是上述两类语料库中出现频率依次排序的词汇。通常高频词是功能词,但是《暮光之城》出现频率最高的是实义词第一人称代词“I”。是否因小说是第一人称叙述,所以“I”频率最高,那么其他第一人称叙述的小说高频词中是否“I”也是排序第一呢?是否第一人称叙事小说中“I”都是第一高频词,还是仅此一例?作者对三部以第一人称为叙事角度的英文小说做了词频统计,分别是《Black Beauty》、《Oliver Twist》、《RobinsonCrosio》。在《Black Beauty》中,“I”是第三高频词,在《Oliver Twist》中位于第二,在《Robinson Crosio》中也是第二高频词。经过对比得出结论,在以第一人称为叙述角度的小说中,“I”确实属高频词这点与其他文体小说不同。但是“I”列位第一是《暮光之城》独有的特点,属于这一文本的独到之处,说明作者格外强调“I”(我)的感受,引领读者从“我”的角度参与故事情节,增强作品感染力。

表3 两类语料库词频表及高频词

不同的是“was”在《暮光之城》词表中排名第四,远高于BROWN(K-R)的第七位。经过卡方检验0.01

通过对热销英文系列小说《暮光之城》自建语料库与BROWN文学语料库BROWN(K-R)对比,就词汇分布、词汇密度等词汇特征进行了分析,得出《暮光之城》系列小说所用词汇普遍短小,词汇密度较高,口语化特征明显,多采用动词,句子简短,叙事简洁、平实,可读性强,适合青少年阅读。动词中一般过去时的高频使用突出小说神秘感,与吸血鬼和人类相恋的主题不谋而合,增强了小说的趣味性和可读性。

语料库是一种新兴的语言处理技术,其特点是对大规模的真实语言进行科学的统计分析,通过采用对比词频表、赋码计算词汇密度等来自语料库的数据对语言系统进行量化分析,从而发现语言规律。语言研究者借助语料库检索工具对来自语料库的数据进行量化分析,可以观察到用传统方法无法发现的很多语言事实,从而对语言本身进行更加客观地描写和解释。通过语料库手段对文学作品词汇的分析为进一步研究提供了更加科学的数据支撑,从而使结果更具客观性和准确性,继而增加了解释的说服力。然而,其缺点是语料库的建立比较费时费力,语料库研究方法也比较复杂,不易在短时间内普及。

[1] Palmer F R.The English Verb[M].London:Longman Group Ltd,1974:94-95.

[2] Stephanie Meyer.Twilight[M].New York:Little,Brown and Company Hachette Book Group,USA.

[3] Stephanie Meyer.New Moon[M].New York:Little,Brown and Company Hachette Book Group,USA.

[4] Stephanie Meyer.Eclipse[M].New York:Little,Brown and Company Hachette Book Group,USA.

[5] Stephanie Meyer.Breaking Dawn[M].New York:Little,Brown and Company Hachette Book Group,USA.

[6] 刘建强,张化丽.科技英语中被动语态的特点及翻译方法[J].科技信息:科学教研,2008(4).

[7] 曾卫军.文艺语体中的短句修辞[J].现代语文:语言应用研究版,2007(7).

[8] 郝雁南.谈谈美国摩门教及其文化[J].山东师大外国语学院学报,2000(2).

[9] 杨信彰.英语书面语体中的词汇密度特征[J].解放军外语学院学报,1995(3).

[10] 吴义勤.中国当代新潮小说论[M].南京:江苏人民出版社,1997.

[11] 马广惠.基于语料库的小说文体学研究[J].常熟理工学院学报,2005(5).

[12] 刘世生.文学文体学:理论与方法[J].外语教学与研究:外国语文双月刊,2002(3).

[13] 申丹.文学文体学的分析模式及其面临的挑战[J].外语教学与研究,1994(3).

[14] 慈继伟.小说对文学文体学的挑战[J].外语教学与研究,1985(2).

[15] 李涛,王菊丽.语料库文体学:计算机辅助文学语篇的文体分析[J].外语电化教学,2009(1).

[16] 刘世生.文学文体学:文学与语言学的交叉与融会[J].清华大学学报:哲学社会科学版,2003(6).

[17] 赵秀凤,訾缨.文学文体学的回顾与展望[J].北京林业大学学报:社会科学版,2005,4(1).

[18] 杜琳.西方现代文体学的沿革及其主要流派[J].济南职业学院学报,2007(3).

[19] 闫书颖.词汇密度在语料库中的统计[D].大连海事大学硕士学位论文,2001.

[20] 韩国崇.基于语料库的欧内斯特·海明威作品文体学分析[D].大连海事大学硕士学位论文,2008.

[21] 易仲良.论英语动词过去时态的实质[J].上海外国语学院学报,1987(1):2.

[22] 易仲良.论英语中“说话时刻”的移位[J].外语与外语教学,1998(11):1.

[23] 许伟.平行语料库在翻译批评中的应用--以培根Of Studies的不同译本为例[J].外语研究,2006.

[24] 段晋丽,李英杰.基于语料库的文体研究-以《围城》珍妮英译本为例[J].黄石理工学院学报,2007(3).

[25] 高彩虹.英语一般过去时非过去用法的认知阐释[J].重庆工学院学报:社会科学,2009(1).

[26] 杨惠中.语料库语言学导论[M].上海外语教学出版社,2002.

[27] 王馥芳,罗敏莉.语料库词典学的兴起与发展[J].辞书研究,2004(5).

A Corpus-based Lexical Analysis of Twilight Series

Yang Xiuzhen,Xu Na,Liu Meiyu

This paper,with the assistance of corpus retrieval tool called WordSmith,makes a comparative analysis of the self-established corpus composed of the Twilight Series and the BROWN(K-R)literary corpus.It tries to illustrate the lexical characteristics of Twilight series from three aspects:word length,lexical density and high-frequency words by combining quantitative findings with qualitative analyses.

corpus;Twilight series;BROWN(K-R)literary corpus;lexical characteristics

H313

A

杨秀珍(1950-),女,教授,硕士生导师,研究方向为英语教学法。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!