基于R 语言对演讲文本的语言特征多维度分析

时间：2024-05-08

秦梦娟

(南京传媒学院，江苏南京 211100)

一、理论背景和研究工具

(一)理论背景

定量研究方法在我国外语教学与研究领域的应用十分广泛，受到国内外应用语言学界的普遍关注和重视。所谓定量研究是指搜集用数量表示的资料或信息对数据进行量化处理、检验和分析，从而获得有意义的结论的研究过程，这是一种确定事物某方面量的规定性的科学研究。在外语教学定量研究中应引入稳健性设计方法和利用统计方法[1]。在文本的语言特征分析中可以加入定量研究手段，借助统计分析软件，如Coh－Metrix[2]、SPSS、R 软件等，以加快分析速度。

(二)研究工具

奥克兰大学统计学系的罗斯•伊哈卡(Ross Ihaka)和罗伯特•杰特曼(Robert Gentleman)受贝尔实验室S 语言的启发，于1991 年开发了R 语言。经过三十多年的发展，R 语言现已发展成为一个集统计计算、制图和自然语言处理等为一体的编程语言。它既能运行现有的R 程序，又能对现有程序进行改进，以满足研究者的特殊需要。 R 软件有强大的社团提供技术支持和疑难解答，成员包括统计学家、程序员和用户等。文章采用R 4.2.1 对两篇演讲文本进行语言特征分析，包括词汇特点、主题词和N 元组。这两篇演讲文本均来自R 软件下数据包quanteda 中的语料库data＿corpus＿inaugural，记为文本1 和文本2。

二、词汇特点分析

利用R 软件对两篇文本进行描述性统计，得到统计结果如下:文本1 使用形符1467 个，类符539个，句子数为105 个，平均句长为13.97，平均词长为4.55；文本2 使用形符2389 个，类符739 个，句子数为225 个，平均句长为10.62，平均词长为4.23。可以发现两篇文本篇幅差异很大，文本2 篇幅远远超过文本1 的篇幅，但文本2 的平均句长和平均词长略低于文本1。

词汇密度(lexical density)是通过一篇文本中的实词数与文本中出现的总词数的比率来计算[3]。通过R 软件对两篇文本的词汇密度进行计算，得出结果如下(保留两位小数):文本1 的词汇密度为0.50，文本2 的词汇密度为0.47。两者差异不大，文本1 所用实词比例更高。

词汇复杂性(lexical sophistication)也是评估词汇丰富性的四个指标之一，是指在文本中能够适当使用与主题、文体相关的低频词，而不只是使用常用的高频词。本研究所用低频词为Paul Nation 开发的2000 常用词表，文本中的低频词即剔除常用词后的词，低频词与总词数之比即文本的词汇复杂性。通过R 软件进行计算，得到结果如下(保留两位小数):文本1 的词汇复杂性为20.71，文本2 的词汇复杂性为24.56。两者差异不大，文本2 所用词汇较为复杂，低频词使用较多。

词汇多样性(lexical diversity)可以评估发言者的词汇知识及他们语言输出中的词汇变化特点。类符形符比(type－token ratio，TTR)是传统上测量词汇多样性所使用的最普遍的方法，即用一篇文本中使用的不同词项(类符)的总数除以文本中所有词项(形符)的总数。然而，这种方法已被证明受文本大小的影响。文本越长，TTR 的值就越低[4]。本研究中采用移动平均类符－形符比(moving－average type－token ratio，MATTR)，即按照固定的窗口(即词符数)从文本开头计算TTR，然后在文本中依次移动窗口计算TTR，直至在包括文本最后1 个词符的窗口中计算TTR，最后计算这些窗口TTR 的平均值[5]。移动平均类符－形符比不会因为文本长度不足舍弃文本末尾的词符。通过R 软件计算两文本的MATTR 发现，文本1 的MATTR 为0.68，文本2的MATTR 为0.67，几乎没有差异。

文章对两个演说的词汇特点进行了分析，可以发现两篇文本的词汇密度、词汇多样性以及词汇复杂性的差异不大，为了进一步探究两篇演说文本的难易度差异，利用R 软件对它们的文本可读性进行分析，得到以下结果:文本1 的可读性适用于美国七年级学生(大约12 岁)，而文本2 的可读性适用于美国五年级学生(大约10 岁)，两篇文本的可读性都比较高，容易被听众所理解，体现了演讲文本的可讲性。

三、主题词分析

为了更好地对比两篇文本的语言特征差异，文章对两篇文本的高频词和关键词进行分析。

(一)高频词

图1 为两篇文本中频数为20 及以上的词频分布条形图(左:文本1；右:文本2)。

图1 频数为20 及以上的词频分布条形图

由图1 可以得出，文本1 中频数为20 及以上的高频词有8 个，频数最高的前三个词为and(出现77次)、the(出现71 次)、of(出现48 次)。文本2 中频数为20 及以上的高频词有13 个，频数最高的三个词为the(出现95 次)、and(出现76 次)和of(出现71次)。两文本排列前三的高频词相同，均为虚词，同上文词汇密度的结果对应，可以发现两篇文本的虚词使用较多。同时，两篇文本的高频词中均出现了we、our 两个第一人称代词和will 情态动词。两位演说者通过三个词的使用，以此来表达自己强烈的意愿，使听众信服他们的观点，体现了演说文本的鼓动性。

图2 为两文本去除停用词后的、频数为前100的词云图(左:文本1；右:文本2)。

从图2 可以看出，词云图以字体大小显示词频高低，词频越高，字体就越大。文本1 中最醒目的词是“american”(在形符化时所有的文本词语均改为小写字母)，“american”一词在文中出现11 次。其他频数较高的单词是“people”(出现10 次)、“country” (出现9 次)、“nation” (出现6 次)、“world”(出现6 次)、“dreams”(出现5 次)。文本2中最醒目的词是“american”，“american”一词在文中出现9 次。其他频数较高的单词是“story”(出现8 次)、“americans”(出现7 次)、“nation”(出现7次)、“days” (出现6 次)、“war” (出现6 次)、“unity”(出现5 次)、“power”(出现5 次)。可以发现两篇文本的高频词有相似点，也有差异。

(二)关键词对比

关键词(Key words)指某些词在一个语料库中出现的频次明显高于在另一个语料库中出现的频次，能够体现文本的主题。图3 为两篇文本的关键词对照。

图3 显示，文本1 中“back” “protected” 和“dreams”是最突出使用的3 个词。而文本2 中的“us”“can”和“democracy”是最突出使用的3 个词。基于上文的研究结果，两篇文本均使用了较多的第一人称代词(we/our)和情态动词(will)，文本2 增加了单词“us”和“can”的使用。两篇文本使用不同的关键词体现两位演说者观点的差异。

四、N 元组

N 元组是文本中连续出现的长度为n 的形符串，其中n 是不小于1 的整数。长度n 为1 的元组称作单元组(unigrams)，长度n 为2 的元组称作二元组(bigrams)，长度n 为3 的元组称作三元组(trigrams)，以此类推。图4 为两篇文本中频次为5 及以上的二元组(左:文本1；右:文本2)。

图4 高频二元组

图4 显示，文本1 中二元组“we will”出现了24次。文本1 大量使用第一人称代词“we”和情态动词“will”与对上文的研究结果一致。而文本2 中除了上文强调的“we can”句式，二元组“we must”也出现了7 次，体现了两位演说者在演说中情态动词的选择差异。总结上文，可以发现两篇文本中均大量使用了“we will”句式，文本2 中增加使用了“we can”和“we must”句式，体现了演讲稿的鼓动性。

五、结语

文章运用自然语言分析软件R 4.2.1 进行文本分析，通过分析两个演讲文本的词汇特点、主题词和N 元组，从而对两个演讲文本的语言特征进行分析。研究发现两个演讲文本的语言特征共同点和差异共存。首先，文本1 的实词比例更高、更容易为听众所理解，因为文本1 的词汇密度和文本可读性略高于文本2；而文本2 中低频词比例更高，说明文本2 的词汇复杂性略高于文本1；两篇文本的词汇多样性几乎一致。其次，两篇文本均使用了较多的虚词，包括the、and、or，也运用了较多的第一人称代词和情态动词，包括we、our、will。上述单词的使用，使得两个文本较容易理解，能使听众产生认同感。但两个演讲文本在关键词、N 元组以及在人称代词和情态动词的选择上存在差异。文本2 运用了较多的第一人称代词“us”、情态动词“can”和“must”。上述结果体现了演讲文本具有的鼓动性，也体现了R 软件在文本分析领域的可行性。