当前位置:首页 期刊杂志

《年度媒体高频词语表》对辞书编纂的价值*

时间:2024-05-07

侯瑞芬

国家语言资源监测与研究中心对平面、有声、网络三种媒体的语料进行监测,整理形成当年的《年度媒体用字总表》、《年度媒体高频词语表》(以下简称《高频词表》)和《年度媒体新词语表》等词表,在教育部语言文字信息管理司组编的《中国语言生活状况报告》中公布,至今已有八年。其中的《高频词表》是对每年的语料进行分词系统切分,将其中覆盖率达到95%的词语去掉时间表达式、数字表达式、专有名称后得到的。每年公布的高频词语数量在2.5—2.8万之间,并有逐年上升趋势。《高频词表》不仅对于人们了解当年的常用词语状况很有帮助,对汉语词汇研究和辞书编纂来说也是一份珍贵的资料。

我们将在对《高频词表》中词语的整体面貌进行分析的基础上,对比《高频词表》与《现代汉语词典》(以下简称《现汉》)第7版中的词语异同,并进一步说明《高频词表》对辞书编纂特别是收词问题的应用价值。为了对词语的发展变化有一个相对完整的了解,我们利用《人民日报》1946创刊到2018年这七十多年的语料对相关词语的使用进行分析。

一、 《高频词表》反映了当今汉语词汇的基本面貌和发展趋势

《高频词表》是当年媒体语料中出现频率最高的词的集合,我们将2010年—2017年间的《高频词表》汇总在一起,除去字母词外,8年间一共收录33815个年度高频词,我们称为《高频词表》合收词,8年中共同收录的有22203个词,我们称为《高频词表》共收词。这22203个《高频词表》共收词可以视为近几年比较稳定的高频词语的一个集合,反映了近年来汉语词汇的基本面貌和发展趋势。我们主要从词长和用字两方面进行分析。

(一) 《高频词表》中词语的词长分析

我们对2010年—2017年《高频词表》的词长做了统计,结果如下:

表1 《高频词表》中词语的词长统计

可以看到,二字词是汉语词汇的主体,占有绝对优势,其次是三字词,五字及以上的词很少。三字词近年来的快速发展已经引起不少学者的关注,在新产生的词中,三字词更是取代二字词成为最主要的类型。一些学者由此认为“汉语将进入一个以三音词为主的发展阶段”(陶原珂 2003;李海霞 2013等),但是通过对近8年来《高频词表》的分析,我们可以看到,与《高频词表》合收词相比,《高频词表》共收词中的二字词比例增加,而三字词比例减少。这表明汉语词汇系统中稳定的词语仍是二字词,而三字词则是相对不稳定的。

(二) 《高频词表》中词语的用字分析

除单字之外的19577个共收的高频词是由3210个汉字构成的,其中构词能力最强的20个汉字及它们的构词数量分别是:

表2 《高频词表》中前20个高频汉字的构词量

应该说,汉字的构词能力是相当强的,常用汉字尤其如此,前20个高频汉字的构词量都在100个以上。或许这个数据可以促使我们反思现在的基础教育中是否更应注重词汇教学,扩大学生的词汇量,对学生词典收字量的确定也有一定的启发。

二、 《高频词表》与词典词目的性质同中有异

在《高频词表》8年共同收录的22203个高频词中,有17532个被《现汉》第7版收录,占到了79.00%,但仍有4671个词没有被《现汉》第7版收录。这一方面提醒我们《高频词表》与词典的词目有很大共性,都是一定时期内社会群体所使用的比较稳定的词语集合,但也说明它们同中有异,有比较明显的差异。

首先,《现汉》是为推广普通话,促进汉语规范化服务的,它记录的是现代汉语普通话词汇的整体面貌。《现代汉语词典编辑计划纲要草案》指出:“这部词典所收的通用的词是物质生活、文化生活和政治、经济生活中普通的词,各行各业的普通的词,各学科的普通的词。”而《高频词表》是在媒体语料基础上完成的,带有鲜明的媒体语言的特点,比如它最高频的双字词是“记者”,排第二位的才是“我们”。一些当年的热点事物也会出现在当年的《高频词表》中,如2017年的“氢弹”和“涉台”,这都与它选取媒体语料的特点密不可分。

其次,《现汉》中的词目选择是面向人的,而《高频词表》是机器分词的结果。机器分词看中结构的凝固程度和复现率,而人的分词考虑“意义的完整性和使用的独立性”(苏新春,顾江萍 2000)。不同的出发点决定了它们必然呈现出不同的词汇面貌。

《高频词表》的合收词中未收入《现汉》第7版的4671个词语,有相当一部分是由于两种词表的差异导致的。我们主要从三个方面对《高频词表》和《现汉》在收词上的差异进行分析。

(一) 收词单位

《高频词表》对一些高频组合的词语会整体收录,如“工作委员会”“本职工作”“不仅如此”都是《高频词表》中收录的词;而词典以收词为主,如果一个词汇单位可以分解,而且分解后的单位具有一定的组合能力,词典通常收录更小的单位,这样做的目的是为了以简驭繁,体现词目的层级性和统辖性。

比如对“双音词+于”的处理,《现汉》通常只收双音词,如“有赖、取决、来源”,然后通过括注的方式说明它可以和“于”连用。这样处理的好处是既可以涵盖住双音词,又可以涵盖住“双音词+于”,收词效率更高。而《高频词表》则或者只收高频出现的“双音词+于”形式,如“有赖于、无愧于、取决于”,或者同时收“双音词”和“双音词+于”形式,如“来源/来源于、致力/致力于、相当/相当于、甚至/甚至于”。

再如对四字格的处理,《高频词表》一般会整体收录,而《现汉》则会选取组合能力较强的构成单位进行收录:

表3 《现汉》第7版和《高频词表》对四字格的收录差异(1)

双音词连用的四字组,如果词义等于两个成词语素之和,词典一般只出双音词而不再出四字组,但《高频词表》则主要根据频率来取舍。如:

表4 《现汉》第7版和《高频词表》对四字格的收录差异(2)

《现汉》对四字格的这两种处理方式都是为了提高收词的效率。这类简单的组合读者可以根据各组成成分的意义,通过组合关系而自然理解,不必在词典中整体收录再做解释。

(二) 词汇词与词法词的区分

《高频词表》与词典词目的差别也体现在对词法词的态度上。董秀芳(2004)指出,词汇词是需要列入词库的词,词法词则是由词法规则生成的词。这种区分对词典收词非常重要,一方面词法词具有能产性,词典不可能将全部的词法词都收入词典;另一方面,词典存在的首要目的就是为了解释人们在阅读理解中存在困难的词,所以必须考虑词语的释义价值,而《高频词表》则不需要考虑这种区分。这种差别在重叠形式、序数词、词缀构成的派生词等的收录中均有突出的表现。

《高频词表》收录了一些重叠形式,如AA式的“层层、村村”,AABB式的“高高兴兴、陆陆续续”,数量重叠形式“一步步、一点一点”等。对于重叠形式的收录,词典主要看基式与重叠式的意义有无较大变化和重叠式能否自由推广。如“高高兴兴”和“高兴”意义差别不大,词典不会收录,但“马马虎虎”除了“马虎”的“不细心”义,还发展出“勉强;凑合”义,词典就会收录;再如汉语双音节动词的重叠形式是ABAB,如“打听打听”“了解了解”,这类可以自由推广的重叠形式词典不收录,但“躲躲闪闪”是无法类推的,词典就会收录。

《高频词表》着眼于词的频率,有些序数词和表示序列的词因为出现频率高而出现在《高频词表》中,如“第二、第三、第四、第六、第七、第八、第九、第十;第一季度、第二季度、第三季度、第四季度;第一版;大一、大二、大三;二月、三月、六月、七月、八月、九月”,等等。这些词规律性很强,不可能也没有必要收入词典。比如《现汉》一般不会收录“星期一”至“星期六”,而是在“星期”下有所交代,但“星期日”由于是不能类推的,词典就会收录。这是词典对规律性强的词一种简便的处理方式,既可以涵盖有关的词目,又可以以简驭繁。

《高频词表》会收录一些带有词缀、类词缀的词语,比如《高频词表》中“性”作为词缀构成的词有229个,“者”作为词缀构成的词有113个,“率”作为词缀构成的词有59个。但除非意义比较特殊,词典通常不会收录太多这类词,只在该词缀中举例说明。因为这些词具有能产性,结构上可以类推,语义比较透明,除少数高频使用的组合外,词典多采取在词缀下处理的办法,不单独出条。

(三) 语音信息

《高频词表》与词典的另一个重要区别是《高频词表》主要关注词的书写形式,而词典则涉及个词的形、音、义等诸多方面。这主要体现在它们对儿化词的收录上,如《高频词表》中的“差点、靠谱、较真、支招、猫腻、没准、模特、纳闷、年头、起名、嗓门、玩意、馅饼、心眼、大腕、叫座、拔尖、小道”等词在《现汉》中均以儿化的形式出现,因为这些词在使用中是必须读儿化的。儿化形式的有无也是导致二者收词差异的原因之一。另外,对于一些可以读成儿化也可以不读成儿化的词语,《现汉》也用括注的形式“(~儿)”来说明,如“开窍、吭声”等,这样,词典就采取不同的处理方式对必须儿化和可以儿化的词语做出了区分。

三、 《高频词表》对辞书编纂的价值

尽管《高频词表》与《现汉》所收的词目在性质上存在不同,但是高频词语有着非常重要的价值,“对反映语言的真正面貌与使用状况来说,词频反映的信息比词种数更为重要。词频显示出一个词的社会使用密度、人们的熟知程度,是一个词稳定性的重要标志”(苏新春等 2006)。作为一部以记录现代汉语普通话词语为己任的规范型词典,《现汉》在收词时自然应该首先注意高频词语。王敏(2009)已经从辞书编纂的角度分析了媒体字词频统计结果的应用价值,指出这些统计结果“体现了现代汉语的最新发展情况,其成果值得辞书编纂界关注”,我们将具体分析《高频词表》对辞书编纂,尤其是词典收词方面的价值。

除去词表性质不同造成的差异,《高频词表》未收入《现汉》第7版的4671个词非常值得我们去关注,它们是《高频词表》对辞书编纂特别是词典收词的主要价值所在,主要体现在下面三个方面。

(一) 增补词目

《高频词表》可以为词典增补词目提供参考,因为使用频率往往是判定一个新词是否稳定并具有收入词典资格的重要标准之一。《高频词表》中有不少词是可收入词典的。它们既有对新事物进行说明的词,如“代购、试驾、夜店”;也有一些从行业词进入日常生活中的词,如“桥段、蓝筹、绝杀”等;还有一些因构成语素不自由而合并形成的词,如“售罄、撰文、殆尽”等。以“售罄”为例,它其实就是“卖完”的意思,但“卖完”的组成成分都是可独立使用的,且语义透明,词典不会收录,而“售罄”的组成成分已经不能独立使用,“罄”也不常用,语义透明度低,所以词典可以收录。我们主要分析《高频词表》对词典增补漏收词和增收新词两方面的价值,增收的新词着重分析词缀派生词、词汇化而来的词和缩略词。

1. 增补漏收词

《现汉》作为一部以反映现代汉语词汇整体面貌为己任的中型语文词典,在收词方面取得了公认的成绩,但词汇数量繁多,早期辞书编纂又主要依靠手工卡片记录,难免有所遗漏。《高频词表》正好可以弥补这一缺陷。比如“收紧”“叠加”“练就”这三个词《现汉》并未收录,但它们在2010年—2017年的《高频词表》中均有出现,相对稳定,也较为常用。

表5 词典可补收的词

“收紧”表面上看是一个普通的动补结构,如“收紧缰绳”,这种动补结构数量庞大,语义透明度高,词典是不会收录的。但“收紧”还有“严加控制”的意思,如“收紧银根”,这个用法在《人民日报》中第一次出现是1957年:

(1) 但美国仍坚持它自己的主张,只同意稍稍放宽对中国的“禁运”,……;另外还要收紧对所谓“例外程序”的运用。

(《英国放宽对华“禁运”以后》,《人民日报》1957-06-08)

“叠加”表示两个事物在同一位置重叠共存,《人民日报》中第一次出现是1959年:

(2) 因此在米波波段中我们测到的太阳是扁形的,而且比肉眼看到的要大得多,当日面上出现黑子的时候,太阳的辐射上便叠加着黑子的影响,……

(《射电天文学——打开宇宙秘密的新钥匙》,《人民日报》1959-08-22)

“练就”是“练成”的意思,表示“经过练习训练而取得某一成就”,在《人民日报》中第一次出现是1948年:

(3) 战士刘贵、秦海堂拿出练兵中练就了的本领,把手榴弹从碉顶上投进去,轰然一声,把敌人的弹药引炸了,碉堡里哄隆隆的乱成一团。

(《太原南区敌守碉司令毕树武被俘记》,《人民日报》1948-11-21)

可以看到,这些词出现时间都比较早,现在较为常用,可以考虑收入词典。

2. 增收词缀派生词

通过添加(类)词缀构成新词是一种很能产的构词方式,比如“式”在《高频词表》中有“中式、西式、欧式、日式、美式、意式、英式、法式”等25个词,词典一般不会将这些词一一收录并解释,而是在“式”下处理,如:

式shì① 样式: 新~|旧~|西~|男~|女~。

(《现汉》第7版)

但当组合后意义发生变化时,就应该收入词典。《现汉》在每一次的修订中都注意增加这样的词语。如《现汉》第5版就新增了“地毯式”“一站式”;《现汉》第6版新增了“捆绑式”“拉网式”“螺旋式”“填鸭式”“投币式”;《现汉》第7版新增了“断崖式”。根据这样的原则,我们发现《高频词表》中还有一些“X式”可以收录。比如:“复式”,它是一种新的建筑形式,它的层高比普通的房屋高,多在内部分上下两层。

“式”不仅仅是一个单纯的词缀,它常常也是一个比喻用法的标记,它的出现使得与它共现的词语发展出一种比喻意义,比如“病毒式”突出的是“像病毒一样快速传播和扩散”,最常见的组合是“病毒式传播”。“自杀式”也表示“像自杀一样的”,最常见的搭配是“自杀式袭击”,这是一种与敌人同归于尽的袭击方式,在伤害敌人的同时也伤害自己。还有一种“自杀式营销”,这是指商家用赔本等方式来吸引消费者的一种营销手段。“自杀式袭击”和“自杀式营销”所凸显的都是“自杀”对自己造成伤害这一特点。近年来常见的“塌方式、跳水式、爆发式、井喷式”等也都是通过比喻构成的词,可以适当考虑收入词典。

3. 增收词汇化而来的词

高频使用是词汇化发生的重要条件之一。董秀芳(2011)指出,“心理的组块过程中把经常相连出现的两个分立单位组织在一个组块中,这样二者就有可能逐渐变为一个不可再分的单位。”侯瑞芬(2015a,2015b,2017)分析了词汇化而来的词在词典中的处理方式,指出一个词汇化而来的语言单位要收入词典,最重要的一点就是看其组合义是不是已经不同于成分义的加合,但也要考虑语言结构组成成分能够单用及整个语言结构的使用频率等多种因素。江蓝生(2013)介绍了《现汉》第6版收录的一些词汇化而来的词,比如“对了、好了、算了、完了”等与体标记“着”连用而词汇化的词;“本着”和“随着”等与体标记“着”连用而词汇化的词;对“—于、—乎、—及、—以、—自”等跨层结构合成词做了增补。《高频词表》中一些词汇化的高频组合也可以考虑收入词典,如:

表6 词典可收录的词汇化而来的词

“亟待”是急迫等待的意思,其中“亟”是“急迫”的意思,已经不能单用;“与否”是“是(这样)或者不是(这样)”的意思,用来表示正反两方面的意思;“愈发”是“更加”的意思,表示程度更近一步;“尽可能”其实就是“尽量”的意思。这些词的构词成分已经不能单用,在长期的高频共现中词汇化成词,可以考虑收入词典。

4. 增收缩略词

缩略也是构成新词的重要方式之一,它是从较长结构中抽取典型的语素构成新词的一种方法,缩略词简洁明快,更容易通行,但是从字面上看,缩略词的意义往往不很明确,因此,一些高频的缩略词可以考虑收入词典。如:

表7 词典可收录的缩略而来的词

“防控”是“预防控制”的缩略,“福彩”是“福利彩票”的缩略,“非遗”是“非物质文化遗产”的缩略,它们的使用频率都很高,可收入词典。值得注意的是,“福利彩票”和“非物质文化遗产”都被《现汉》第7版收录,它们都是多字词,在使用中逐渐缩略为二字词。与全称相比,缩略的二字词更为常用,因此,词典应在收录全称的同时也收录简称。

(二) 同物异名形式的取舍

当一种事物具有几种不同的语言形式时,《高频词表》可以帮助我们对这些同物异名形式进行取舍。

比如《现汉》同时收录了“冰激凌”和“冰淇淋”,“冰激凌”是主条,“冰淇淋”是副条,用“冰激凌”直注。《高频词表》也同时收录了“冰激凌”和“冰淇淋”,但是“冰淇淋”的频次明显高于“冰激凌”。因此,或许我们可以把后者当作主条,前者作为副条。

表8 “冰淇淋”与“冰激凌”的频次

再比如意大利的食品Pizza传到中国后有几种不同的翻译:“匹萨(饼)”“比萨(饼)”“披萨(饼)”和“批萨(饼)”。《现汉》第6版收录了“比萨饼”,第7版同时收录了“比萨”和“比萨饼”,并以“比萨”为主条,但我们发现《高频词表》中并未收录“比萨(饼)”,而只收录了“披萨”,那么,我们究竟用哪一种形式合适呢?

图1 “比萨”“披萨”和“匹萨”使用频次的历时变化

《人民日报》中没有出现过“批萨”一词,其他三个词都有使用。“比萨”首次出现是在1990年,那一年第一家“必胜客”在北京开业。1993年,“匹萨”一词首次出现,这一年,“匹萨”被频繁使用,但之后就用得很少,从2015年开始,“匹萨”没在《人民日报》中出现过。2013年,“披萨”第一次在《人民日报》中出现,使用频次逐渐增多。

我们可以看到,“比萨”在过去的二三十年中的使用是比较频繁的,有着绝对的优势,但是从近几年和今后的发展来看,或许“披萨”的使用频率会呈现一个逐渐上升的趋势,有可能超过“比萨”。一个原因可能是“披萨”在声音上与pizza更接近,也就是说,在汉语口语中pizza读音类似“pīsà”,音译词与实际读音相一致。除此之外,还有一个重要的原因是“比萨”这个中文译名早已有其他意义。意大利城市“Pisa”的中文译名是比萨市,那里还有著名的比萨斜塔,在pizza传到中国之前,《人民日报》中的“比萨”几乎都是指“比萨市”或“比萨斜塔”,所以表示pizza的“比萨”基本一直都是以“比萨饼”的形式出现的,否则就容易与表示Pisa的“比萨”弄混。而且,“比萨饼”和“比萨市”本来是完全没有关系的,使用同一个译名很容易让人们把它们错误地联系在一起。或许正是这个原因,人们一直试图寻找更合适的译名,而“披萨”可能就是个不错的选择。因为我们对pizza的熟悉已经由“比萨饼”完成了,“披萨”在出现之初就是以不带类名的形式出现的,这也更符合汉语的双音节倾向,使得它比“比萨饼”更容易传播。

(三) 纠正收词的失误

词典收词是一个庞大复杂的工程,加上词语一直处在不停地变化中,再好的词典都难免存在个别词语失收或收词不当的情况。通过《高频词表》与《现汉》收词的对比,我们可以发现一些词典收词上的失误,进而做出修订。前面已经提到,词典倾向于收录具有较强组合能力的较小词汇单位,《现汉》也一直努力贯彻这一原则,比如《现汉》第6版收“代言人”,第7版改收“代言”,这是因为原先只有“代言人”,“代言”是不能单独使用的,随着“代言人”的高频使用,“代言”独立出来,《现汉》第7版对这一变化做了及时调整。改收“代言”既涵盖了“代言人”,又反映了语言的发展实际。但这一原则在《现汉》中也有执行不到位的地方,如:

表9 《高频词表》和《现汉》第7版的收词对比(1)

这几组词在《高频词表》中出现的是较短形式,而在《现汉》第7版中出现的是较长形式,这与词典收词的原则相违背,应该适时调整。但之所以出现这种情况,是因为这些二字词原先是不能单用的,是在多字词的高频使用中逐渐独立出来的。词典对语言事实的反应总是相对滞后的,但随着编纂手段的改进,这一问题会有所改善。

汉语中有一些外来词在开始使用时往往在译名后加类名构成三字词,在使用过程中,这些带有类名的三字外来词具有逐渐脱落类名成为二字词的趋势,不论是从收录小单位的角度考虑还是从使用频率的角度考虑,词典都应该首先收录二字词,或者同时收录但把二字词作为主条。《现汉》有些词的处理比较好,比如“桑拿”和“桑拿浴”都收录,但是以“桑拿”为主条;“摩托”和“摩托车”都收录,但是以“摩托”为主条;“比萨”和“比萨饼”都收录,但是以“比萨”为主条。但是也有一些词条的处理不太合适。

表10 《高频词表》和《现汉》第7版的收词对比(2)

这些词中类名的脱落是缓慢的,有些变化不容易发现,《高频词表》正好给我们提供了参考,可以帮助我们做出取舍。当然“香槟酒、摇滚乐、芭蕾舞”是最早出现的正规说法,而“香槟、摇滚、芭蕾”是因类名脱落后起的说法,为了体现这一演变过程,也可以处理为将前者作为正条,将后者作为副条,或挂尾处理,总之要对频率较高的二字词有所交代。

四、 结语

词频反映着语言的面貌与使用状况,是词汇的重要属性之一。它对社会的发展变化有直接反应,受多种因素影响而不断变化。词频的动态变化不仅反映着词汇的发展变化,也能帮我们预测词的发展方向。

高频使用是常用词的本质属性,也是一个词语从出现到逐渐稳定下来需要具备的重要条件。高频使用能够促进人们加深对一个词语的熟知程度,为词语的稳定性提供重要保证。一个新词从出现到成为词汇系统中稳定的一员,需要经过高频词的阶段。

高频词是不断变化的,每年都有一些高频词进入,也有一些高频词退出。所以,高频词既包括不同时期都广泛使用的比较稳定的词,也包括某个时代特定的流行语,而那些相对稳定的高频词才是共时词典应该收录的主要对象。2010年—2017年《高频词表》的合收词为我们提供了近几年比较稳定的高频词语的集合,反映了近年来汉语词汇的基本面貌和发展趋势,对词典收词有重要的参考价值。

借助大规模语料库和频率统计来对词语进行筛选是辞书编纂的一个趋势和方向,《中国语言生活状况报告》在这方面提供了很好的资源,为我们了解媒体语料的用字用语情况提供了重要参考,也对高频词语和新词语的发展变化提供了有力证据,对辞书增补新词、确定同物异名形式的主副条及纠正收词的失误都很有帮助,希望能引起辞书编纂者的关注,使这一资源得到充分利用。

附 注

[1] 这里的百万词频次=词语的频次×1000000/总频次。因为每年的媒体语料数量不一样,当语料规模大的时候词语的频次自然多,为了让历年的词语频次具有可比性,我们采用了百万词频次来进行对比。下同。

[2] 这里的排名是指在2010年—2017年22203个《高频词语》共收词中的百万频次排行。下同。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!