数学之美与熵在语言处理中的作用

时间：2024-09-03

吴伟豪

（中央民族大学 100081）

数学之美与熵在语言处理中的作用

吴伟豪

（中央民族大学 100081）

数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时，总会感叹数学之美。简单的数学模型能解决复杂的语音识别、机器翻译等问题，它把一些复杂的问题变得如此的简单。经过模型的建立，复杂的语音识别问题居然能如此简单地被表述、解决，我们不得不由衷地感叹数学模型之妙。

数学之美语言处理熵

展现合理之美的黄金分割，彰显对称和谐之美的二次曲线，体现代数简洁之美的各种猜想定理，凸显优雅之美的几何立体图形。这些无一不使得这个世界更加自然或者更为便捷。

不管索引如何复杂，查找的基本操作仍然是布尔运算。布尔运算把逻辑和数学联系起来了。它的最大好处是容易实现，速度快，这对于海量的信息查找是至关重要的。它的不足是只能给出是与否的判断，而不能给出量化的度量。[1]

直到信息熵的出现才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。因此，所有搜索引擎在内部检索完毕后，都要对符合要求的网页根据相关性排序，然后才返回给用户。

我们越来越意识到了在信息时代之中，信息对于我们日常生活的影响。无可否认，我们的生活早已无法离开信息了，方方面面都与之有着密切的联系。从马尔可夫模型在语言处理中的应用，到怎么度量信息；从统计数据模型，再到信息论在信息处理中的应用；从信息指纹及其应用，再到布尔代数和搜索引擎的索引。[2]

数学早已经根植在信息领域之中，并且密不可分了。

以现在比较常见的信息与计算科学专业来说，该专业是以信息领域为背景，数学与计算机信息管理相结合的交叉学科专业。因此该专业不仅要求有一部分的计算机尤其是编程的素养，同时也对学习者的对于信息的辨识处理能力有比较高的要求，这也正是现在这个时代的趋势所向。

对于数学而言，最基础的是理解，最好的是领悟，最难的是运用吧。数学作为一门工具性应用性极强的学科，早已发展数千年，从结绳计数至今，信息传播途径也有翻天覆地的变化。

我们在每个地方都能感觉到信息扑面而来，这种大的趋势也无法阻挡。既然如此，我们只有提升自己，在以后的生活之中，多注意身边的事物，弄清楚他们在更深层次运用的是什么，我们能在这些地方用上什么。在之前我也从未想过，甚至在Google搜索引擎方方面面上，数学也能被运用得如此之多。数学之美，美在巧妙运用信息，使我们的生活更简单。

接下来则是数学之美中的一个典型例子，熵在语言处理之中的作用。而究竟什么是语言处理中的“熵”呢？不同于我们在化学这门学科中接触的熵，化学中的熵是体系的混乱的程度的定义，形象来说就是混乱度。而我们现在所要讲述的则是日趋繁复的现象，我们称之为语言的“熵”。为了能够更好地表情达意，人们不断创造新的语言成分，语言从简单粗陋走向丰富精密，这就是语言处理中的“熵”。

从信息论的角度来看，用自然语言交际的过程，就是从语言的发送者通过通讯媒介传输到语言的接收者的过程。当接收者一旦接收到语言符号之后，这种不确定度便被消除，这时，语言的接收者就从所接收到的语言符号中获得了一定量的信息，不确定消除的程度越大，获得的信息也就越多，获得的信息就越多。所以说得到的信息量恰好等于被消除的熵，也就可以通过测出语言符号的熵来了解到该语言符文所负荷的信息里的多少。

我们发现，熵在语言处理之中不仅可以通过这些特性来描述语言的复杂程度，还能进行汉语消歧，识别汉语中的人名地名，建立统计语言模型，对汉语句子进行分析，识别汉语中的隐喻现象等各项实用简便的处理。

我们同时也了解到，现在运用最普遍的方法是建立与已知事实一致的模型，对未知因素不作任何假设的最大熵方法。在1992年，最大熵方法首次被运用于自然语言处理。后来于1996年，贝格等人提出了解决条件最大熵方法的两个基本任务，特征选择和模型选择的基本算法。随后最大熵模型被运用于语言模型，这种语言模型开始可以对长距离依存关系进行考虑。也因为这种方法可以尽可能地保持均匀分布，更方便地引入有用的特征。令我惊讶的是，单单一个熵的概念便能引出这么多的应用。

联系前文，从Google搜索引擎说起。在进行搜素引擎开发时，如何智能地识别使用者的意思显得尤为重要。例如，不同的词可以表达相同的意思，同一个词也可以表达为多个意思，对一个概念的描述也可以有多个角度，同一个词在不同领域也会有不同的意思。此时熵的作用就凸显了出来，对用户所键入的语言文字进行处理。根据最大熵方法和信息源的熵，对键入的文字进行划分、识别、消歧、消除等多项操作进行不确定性的消除。当然信息检索也包括去除停止词、取词根、词性标注、句法分析、命名实体识别、指代消解这些具体层面的自然语言处理方法技术

信息系统的运动过程是由无序性、不确定性（高熵值）向有序性、确定性（低熵值）方向发展的。因此，信息在系统运动过程中，可以看作是负熵，是消除系统混乱，从而达到信息有序的量。信息熵越大，无序性和不确定性就越大，包含的信息量也越多，而信息熵的大小又与随机事件发生的概率成反比。而与信源的熵成反比的冗余度”是对信息的确定性、有序性和可预见程度的计量，信源的熵值越高，冗余度越小，反之，信源熵值越小，冗余度越大。因此如果冗余度过大，将会增多不确定性，同时也会使得人工智能等接收端出错概率大幅多增加。这同时也提醒着我们在日常生活尤其是对事物进行说明时，要减少冗余度，最终达成熵减的目的。

在语言处理之中，为了得出我们所需要的字段，接收端对文字进行的处理，一步步减少语言文字中的熵，将不确定性消除到最低程度。故此借助最大熵及其改进方法进行尽可能多的优化就显得尤为必要，对熵的运用也将越来越多。不过，值得一提的是，对于熵的运用还是有待进一步从速度性能的层面进行提高，当今我们仍然受限于此。如果能够打破这个束缚，“熵”在语言处理方面也将会有更为广泛的应用前景。

[1]马奎香. 数学之美[J]. 科技视界,2012,(30):151+153.

[2]李嫦虹. 感受数学之美[J]. 衡水学院学报,2010,(04):73-75.