时间:2024-09-03
■ 李佐文 李 楠
人工智能和大数据正在改变媒体,智能化成为媒体未来的发展趋势①。目前,大数据、深度学习、人工智能等概念层出不穷,逐渐进入媒体行业的同时也改变着媒体行业,智能新闻写作、智能分发、情感分析、个性推荐等成为智能媒体关注的内容。自然语言处理作为人工智能的重要组成部分,需要分析话语的宏观和微观结构,分析语义的不同层次,对内容进行分类,才能在真正意义上实现上述目标。智能化计算机需要通过大量的文本分析,抽取样本特征,才能学会如何提炼主题、分析情感,像人类一样理解我们日常交流的话语;只有掌握了语篇层面的结构特征和语义特征,才能学会产生出更加自然、符合逻辑且富有变化的文章,而不是停留在模板填充的水平上。同样,个性化新闻推送也需要让计算机学习如何对新闻分类,才能使新闻的分发和推送更有针对性。基于神经网络的深度学习使自然语言处理不再只停留在字、词的层面,而是开始探讨包括语境和相关背景知识在内的整体话语层次。
话语计算就是依赖话语的形式特征来实现对语义或意向成分主动控制的处理过程。在语言学理论框架下,用可计算的形式抽象出话语意义的操作模型是计算话语学(computational textlinguistics)的基本任务。在人工智能领域,智能计算本质上是基于自然语言的计算,真正智能的计算机需要像人类一样,使用语言作为媒介来计算。话语的可计算性特征就是用结构化的形式描写话语,用清晰明确的程式化方式来表征话语结构,命题关系,然后通过推理和语义操作来实现话语处理的目的。话语计算是求解问题、做出评价的过程。
可计算特征实际上就是话语的计算模型,该模型具有以下性质:第一,它是对话语本质特征的抽象描述;第二,它是语篇层面的整体特征,而不是词和句法层面的特征;第三,它具有计算的可操作性。特征的抽取没有统一的标注和规范,而是与完成的目标有关。
新闻话语是语言系统在媒体中的应用,是指对某一事件或现象的报道。新闻话语有广义和狭义之分,狭义上仅指消息,广义上则指消息、通讯、特写、评论等形式。消息用概括的叙述方式、简明扼要的文字,迅速及时地报道国内外最新发生的事件。新闻话语具有显著的语类特征,比如新闻报道通常由标题、导语、正文组成,内容的组织也通常有金字塔结构和倒金字塔结构等比较固定的形式。新闻话语的计算主要是对语义进行处理,其特征包括语义的结构性、语句的连贯性、语义的层次性和话语的主题性。
随着人们对自然语言中词语、句子等语言单位的语义表示和自动理解研究的逐渐深入,篇章级的语义表示和自动分析逐渐成为研究的焦点。对语篇进行语义分析与语篇的组织结构密切相关,如果计算机能够从整个篇章的视角把握全文的结构,就能更好地把握文章的主题或中心思想,就能准确地分析篇章级的意义。
语篇的结构是语篇的形式特征,是语篇各个组成部分的搭配和排列。为实现计算机自动分析语篇的结构,需要从语言学的篇章结构理论出发,结合计算机进行篇章结构自动分析的实现要求,对语篇的组织结构进行形式化的描述,这是计算机进行篇章结构自动分析的前提。
对于语篇的结构研究已经有很多的成果,如van Dijk的宏观结构理论、Mann& Thompson的修辞结构理论、廖秋中的论证结构研究、拉波夫的叙事结构研究、娄开阳的新闻语篇的结构研究等,这些理论和研究对于计算机进行语篇结构分析具有一定的意义。
智能媒体的发展使人们越来越关注新闻话语的结构特征。新闻话语研究的重点应该是构成新闻内容的结构框架,Van Dijk在他出版的《作为新闻的话语》②一书中认为,新闻话语有特定的新闻图式,已经形成了既定风格的语类。我们先看一个例子,摘自2018年7月25日《北京日报》第13版③。
例1:男性遭电击超过八成
①有一种非常奇怪的现象,就是男性与女性被雷击的概率天差地别;②据美国疾病控制与预防中心的数据显示,被闪电击中的受害者中,男性超过了八成;③此外,高达85%的闪电致死事故都发生在男性身;④原因是男性比女性更偏爱户外运动;⑤而他们从事的职业,相比女性来说也更偏向户外型;⑥此外,男性通常比女性胆子更大,不肯放下手头的事情,就算雷雨交加,依然我行我素地踢足球、钓鱼、打高尔夫球等。
这篇报道共有6句话,说明一个观点:男性遭电击比例超过八成。构成一个论证结构。
根据廖秋忠提出的论证结构模型,可形成如下结构:A(argument)指论题,P(position)指观点,CL(clarify)指澄清,E(evidence)指论据④。根据该结构模型,例1可以表示为下列树图:
图1 论证结构示意图
钟茂生等在廖秋忠的论证体篇章结构研究和姜岷山的篇章系统性理论的基础上,对论证体篇章结构的形式化描写进行了扩充。基本论证结构(Elementary Argumentation Structure,简称EAS)是包括一个A(论证结论)、至少一个P(论题)、最多一个I(引言)、最多一个C(结尾)和多个E(论据)构成的论证结构⑤。
根据上述规则,例1话语结构可以表示为:
话语的结构和语义密切相关,计算机如果能够自动获取话语的整体结构,就能实现话语层次的自动语义分析。
话语连贯是指话语单位(语句或语段)之间的各种语义联系。不论是书面语还是口头话语,其中的句子或段落之间都不是随意堆砌起来的。学界对于它们之间关系的建立有两种认识:一些研究者(Van Dijk、Brown & Yule等)认为话题是建立话语单位之间连贯关系的依据;另外一些研究者(Mann and Thompson、Shiffrin等)认为话语的各个部分之间隐含着各种逻辑关系,如因果、详述、对比等,是这些关系将话语单位联系在一起。从自然语言处理的角度出发,我们将连贯关系分为两类:显性连贯关系和隐形连贯关系。显性连贯关系是指用语言手段标示出来的语义关系,如上篇报道中,第四、第五、第六句开头的“原因是”“而”“此外”等表示因果关系、转折关系和添加关系的词语;隐性连贯关系在自然话语中更为常见,它没有明显的逻辑关系词来表示,而是靠命题之间的语义关系进行推断。
我们把例1中报道的各句之间的连贯关系标示如图2:
图2
例2:向逆风而行的身影道声辛苦⑥
①风雨中的身影摇晃,却给人们带来安心,带来感动。
②台风“山竹”来袭,风雨交加。在大家避风的时候,却有一群人逆风而行。
③有一组网上热传的视频可作见证。
④视频中,江门市上川岛,气象站工作人员冒着13级大风擦拭仪器镜头,保障记录准确性;广东东莞,供电工人顶着风雨巡查设备,不让城市陷入黑暗;深圳,树会倒,栅栏会跑,交警们依然在冒雨执勤,清除隐患;佛山,民警在转移群众、逆风奔跑;记者顶着风带来最新播报;人民子弟兵时刻准备生死驰援……
⑤他们在风雨中的身影有点摇晃不稳,却给人带来安心、带来感动。
例2报道中的连贯关系标示如下:
话语连贯关系的处理是话语语义计算的核心内容,通过上图可以清楚地看到,在整篇报道中,第一句是全文的核心内容,其余各个句子都围绕它展开。这就是新闻导语自动生成的语义基础。
那么如何让计算机来识别这些连贯关系呢?梁国杰从计算机自动处理语篇的需求出发,从连贯关系和标记的角度,针对汉语记叙文语篇提出了一套连贯关系集,归纳了30种连贯关系和与之相对的词汇标记形式,为计算机识别连贯关系提供了可行的语言知识资源⑦。张牧宇等对中文语篇的句间关系识别进行了探索,针对显性连贯关系,他们提出了基于连接词规则的方法进行识别,取得了很好的效果。针对隐形连贯关系,他们抽取词汇、句法、语义等特征,采用最大熵和支持向量模型进行了识别尝试,推动了连贯关系自动识别的研究⑧。
话语是人们交流思想、表达情感的语言形式。无论哪种形式的言语交际,从语义角度上说,话语都包括两个层面:基本话语(primary discourse)和元话语(metadiscourse)。基本话语表达话题的命题信息,是话语的主体;元话语告诉读者如何理解,评述关于话题的命题信息。交际过程中,交际者为了顺利完成交际任务,要把主要信息编码成衔接连贯的语句,依次表达出来。在这一过程中,交际者要选择恰当的语言成分来有效地组织话语,使其条理清晰、结构合理、符合逻辑。同时还要根据自身体验和感受,把自身的态度、观点和评价也融入话语表达之中。
例3:
①坦率地讲,我不想评价这部电影。
②今年的经济形势依然严峻,但是我们有信心改善民生。
第一句应理解成“发话者坦率地说,我不想评价这部电影”,要表达的主要意思是“我不想评价这部电影”,属于基本话语层面。“坦率地讲”并没有介入主要命题,而是表明了他自身的态度,体现了发话者的存在。第二句中的“但是”也没有介入话语的命题,却起到了有效组织话语的作用,体现了信息的转折。诸如此类的词、短语或句子就是元话语。
基本话语和元话语的区别体现在三个方面:第一,内容不同。基本话语传递命题信息,它们是言语交际的主体,如叙述某个事件、论证某个观点等。元话语并不介入话语的基本命题信息,而是起到评价、表明观点和引导话语的作用。第二,目标不同。基本话语的目的是传递信息,元话语的目的是评价和调控话语,使读者更好地接受信息。从这个意义上讲,二者的终极目标是一致的,都是为了顺利完成交际任务。第三,作用方式不同。基本话语是直接传递信息,元话语是通过对信息的组织和评价,表达发话者的态度,是间接的传递信息。总的来说,作为话语现象,二者密切联系,是不能截然分开的,它们的共同作用使话语成为完整有机的一体。
Lyons认为,说话人在说出一段话的同时表明自己对这段话的立场、态度和感情,从而在话语中留下自我印记⑨。在话语中,作者的主体意识总是以这样或那样的形式表现在话语中,体现着作者的观点、情感和感受。
元话语层次为话语的情感计算奠定基础。研究表明,这些词是观点和情感的主要承载词。
情感分析是一种利用可计算的方法从自然语言文本中提取观点和情感信息的研究课题。情感分析是一个语义分析问题,目标是从话语中分析出人们对于实体及其属性所表达的观点、态度、评价等,因此更加聚焦于理解与情感观点有关的语义内容,需要加入更深层次的语言理解和分析。通用的自然语言处理方法由于需要考虑多方面的因素,很难对情感这样的特定目标进行精准分析和处理,元话语为实现情感分析提供了语言材料。
话语是人们在一定的语境下,为表达一定的意图而说出或写出的一连串语句。这些语句总是围绕一个中心或主题展开。从听者或读者的角度来看,人们通过听读,在句子或段落间建立起一定的连贯关系,将话语所描述的内容与自身的经验和知识结合形成微观结构,再通过选择、概括和建构,表征出发话者要传达的主要意义和观点,也就是话语的主题(subject matter)。
话语的主题没有固定的表现形式,有时包含在某些句子之中,有时体现在某个短语中,有时隐含在字里行间。这些命题和实体之间的语义关系,体现出语篇的文脉,构成连贯的话语整体。
语篇的主旨很多情况下由大小主题构成,这些大小主题可以用包含命题句子或包含实体的短语体现。小主题为大主题服务,比如小主题可以是背景,可以是论据,可以是细节,等等,它们相互关联,按序列连贯推进,构成整个语篇的主题链。因此Givon认为,语篇的基本构建单位是表达同一话题并趋向重复同一话题的句子。这就为主题计算提供了语言学理论基础⑩。
词汇链理论(lexical chain theory)由Morris & Hirst于1991年提出来。词汇链是指在一个主题下的一系列相关的词共同组成的词序列。该算法的基本假设是:用于描述特定主体的多个词语在语义层面上应该是相关的,并且围绕特定主体展开构成一条相关词汇的链条。以词汇语义为核心的话语语义分析中,话语的语义信息通过词汇间的语义关联体现。具体来说,语义相关的词汇、实体在话语过程中的分布情况也可以体现话语的行文结构及各部分之间的语义关联。词汇链理论通过分析普通词汇,包括名词、形容词等的语义信息构建主题词汇链,利用词汇之间的分布和转移方式分析话语语义。
主题模型有不少算法,最经典的两个是:概率隐语义分析PLSA(probabilistic latent semantic analysis)和潜在狄利克雷分布LDA(latent dirichlet allocation)。PLSA是一种生成模型。如下图所示。
图3 PLSA生成模型图
(d表示每一篇文档,z表示每一个隐含主题,w表示具体的单词。N表示每篇文档的单词数,M表示文档集D内的文档数。)
首先假设文档、单词和隐含主题的关系可以通过贝叶斯网络表示。灰色节点文档(d)和文档中的单词(w)是人们可以观测的变量;白色节点z是隐含的主题变量。文档生成会经过三个步骤,一是通过概率p(d)选定文档,二是通过概率p(z|d)选定主题,三是通过概率p(w|z)从主题中选定单词。
LDA(latent dirichlet allocation)主题模型由 David Blei,Andrew Ng和 Michael I.Jordan于2003年提出,是一种主题生成模型。LDA根据词的共现分析,拟合出词-文档-主题的分布,进而将词和文本都映射到语义空间中。LDA认为语篇通过六个步骤生成:一是确定词汇和主题的分布;二是确定语篇和主题的分布;三是随机确定该语篇中的词汇数量,假设数量是N;四是若当前生成的词汇数量少于N就进入下一步,若达到N则进入最后一步,即语篇生成;五是根据文档和主题分布随机生成一个主题,再由这一主题和词汇分布随机生成一个词,然后返回第四步,直到词汇数量达到N;第六步就是语篇生成结束。
以上我们介绍了新闻话语语义宏观层面的语义计算特征,单就计算特征而言还有其他的方面,如新闻话语书写排版方面的特征,段落的规则特征,排版字号大小的特征,都代表不同层次的语义重要性,标题和导语都要突出主题等。
Schank& Brustein的调查显示,大约有一半的新闻故事是程式化的,而纯新闻语体的程式化程度几乎达到百分之百。新闻语篇相对固定的模式是其语篇结构化可计算的关键条件之一。如前文所述,话语的可计算性特征就是用结构化的形式描写话语,用清晰明确的程式化方式来表征话语结构、命题关系。话语意义是计算、求解问题和做出评价的过程,在此过程中通过推理和语义操作来实现话语处理的目的。本文从话语的结构性、连贯性、层次性和主题性四方面分析了新闻话语的可计算特征,为智能新闻写作、智能分发、情感分析及个性推荐等智能媒体的发展提供了语言学基础,有助于其进一步发展并加速自然语言处理的技术突破。
注释:
① 沈浩、元方:《智能化媒体与未来》,《新闻战线》,2018年第1期。
② TA.Van Dijk.NewsasDiscourse.London:Lawrence Erlbaum Associate Publishers.1988.p.73.
③ 司马一:《男性遭电击超过八成》,《北京日报》,2018年7月25日,第13版。
④ 廖秋忠:《篇章中的论证结构》,《语言教学与研究》,1988年第1期。
⑤ 钟茂生、江超、王琪:《论证体篇章结构的形式化描述》,《现代语言学》,2017年第5期。
⑥ 周珊珊:《向逆风而行的身影道声辛苦》,《人民日报》,2018年9月18日,第13版。
⑦ 梁国杰:《面向计算的语篇连贯关系及其词汇标记研究》,中国传媒大学博士学位论文,2016年,第4页。
⑧ 张牧宇、宋原、秦兵、刘挺:《中文篇章级句间语义关系识别》,《中文信息学报》,2013年第6期。
⑨ Lyons,J.Semantics.Cambridge:CambridgeUniversityPress.1977.p.452.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!