当前位置:首页 期刊杂志

基于在线评论特征的领域本体概念获取方法

时间:2024-04-24

曹书芳 李金海

摘要:文章对纳入在线评论观点挖掘过程中的领域本体的概念获取方法研究现状进行了分析,发现存在一些不足,之后基于这些不足与在线评论的特点,提出了基于领域划分与观点五元组的领域本体概念获取方法。

关键词:在线评论;观点挖掘;本体构建;概念获取

一、研究背景

在线评论指消费者通过互联网提交的有关产品或者公司的评论信息,是网络口碑的重要来源。不少学者尝试从在线评论中自动提取有用信息,并逐渐形成了观点挖掘方法体系,即从带有情感色彩的主观性文本中抽取用户对话题、产品、个人、组织和服务等的情绪、意见、喜好、情感倾向。观点挖掘主要任务有产品特征识别、情感识别、情感计算与汇总。最初学者采用基于统计、机器学习、词典等方法,但由于语义描述模块的缺失,存在一定局限,如韩忠明等(2017)提出句子中观点内容指向的是具有层次关系或者从属关系的对象,因此需要能够自动识别对象间层次关系的方法来帮助提高整个模型的有效性。基于此,随着本体理论的发展,国内外学者开始尝试将本体引入观点挖掘过程,主要原理是利用领域本体对特征等概念间的关系进行描述,从而实现模型效果的提升。如王付国(2014)基于对象本体与情感本体实现本体推理,设计了一个基于领域本体的网络评论观点挖掘模型。随着研究的深入,少量学者对领域本体的构建进行了研究,普遍认为首要步骤就是领域概念的获取。本文重点关系领域本体概念获取的方法,分析现有成果与不足,并构建了改善的方法。

二、领域本体相关理论技术

(一)领域本体的概念

本体是共享概念模型的明确的形式化规范说明,领域本体(domain ontology)是指对一定领域范围内的概念进行描述的本体,它通过定义类、实例、属性、关系、公理等元素,刻画出领域中的类和实例及其之间的关系,对领域知识进行归纳和抽象。一个本体需要满足四个基本特征。

1.概念化。指通过对客观世界中的具体现象进行抽象归纳出的相关概念而获得的模型。

2.明确性。指本体所使用的概念以及使用相应概念的约束具有明确的定义。

3.形式化。指本体可以被计算机或信息系统所理解和处理。

4.共享性。指本体中所体现的是范围内共同认可的知识。

因此,创建领域本体的首要工作是明确领域中的概念的范围、类型。本体中的概念可以是一般意义上的概念,也可以是集合、对象类型或事物的种类等,用来描述具有相似点或共同特征的资源的集合。

(二)领域本体的构建过程

领域本体的构建有多种方法,其中应用最广泛的是七步法。七步法是斯坦福大学提出的一种构建方法,其主要过程分为七个步骤,如图1所示。

在这些步骤中,前两步是正式构建前的预备工作,是为了明确本体的需求。第三步指出的领域中的重要术语即概念,之后类的创建、关系分析、实例的构建均在该步骤工作的成果上进行,因此概念的获取在一定程度上关系着领域本体构建的成败。

三、在线评论观点挖掘过程中领域本体概念获取研究分析

(一)现有研究成果与不足

有少量学者对领域本体的构建进行了分析。马捷等(2012)从《教育主题词表》中选取教育领域专业概念以构建教育领域本体。李庆赛(2015)以“旅游”、“旅行”为关键词检索新浪博客中的标签并加以整理,构建了旅游领域相关术语待选集,之后参考《中国分类主题词表》中的相关主题及相关行业标准,对术语进行最终筛选与规范。王双凤(2016)参考旅游行业标准《旅游目的地信息分类与描述》,对旅游目的地相关信息的分类层级结构以及概念描述进行了分析,构建了旅游目的地领域本体。翟羽佳(2015)从网络中检索出1613篇有关“农民工”的文章,之后通过分词与词性标注抽取了1049个术语。陈云志(2017)通过教材、图书、期刊文献等渠道收集大量的疾病知识,并参考医学主题词表等设计了肝炎本体。可以看出,王双凤等学者对于概念的获取来自于现成中文词汇,首先获得待选概念集,然后加以整理定义领域概念。以往学者对于领域内重要概念的获取主要通过以下四种方法。

1. 基于领域专家知识

比如行业标准等政策法规,相关图书、期刊文献、企业官网等领域专家知识。基于该方法构建的本体在术语集上具有完备性,一般涵盖了大部分的领域知识。

2. 基于大众分类法与社会化标签

如从豆瓣、博客等标签较为集中的网站上通过关键词搜索的方式获取大量标签,形成术语待选集,之后筛选出最终术语。该方法基于用户视角收集概念,充分考虑了领域的全员参与性,但容易出现大量冗余标签。

3. 基于主题词表的方法

如《中国分类主题词表》以及《教育主题词表》等领域主题词表。该方法基于标准化术语,很好地对领域术语进行了规范化,但忽略了术语的社会化属性,即社会大众使用不规范的、口语化的表达对领域进行描述。

4. 基于文本挖掘的方法

利用自然語言处理技术,从由句子组成的篇章段落中抽取领域术语。该方法对技术要求高,所抽取术语的范围和专业度较依赖于语料样本。

(二)基于在线评论特征的领域本体概念获取方法

为了将领域本体更好地应用于在线评论观点挖掘过程中,需要构建出适用性更强的本体,首先需要对在线评论的特征进行分析。在线评论具有一系列鲜明的特征。

1. 专业性强。如产品的物理结构、选用材质等含有大量专有名词与技术参数,通过领域专家知识获取更有针对性。

2. 社会化属性。产品生产的最终目的是销售,因此产品领域概念具有与消费者交互的特征,同一个概念既有专业术语,也有通用说法。

3. 分散性。不像教育、医学等领域本体涉及的概念非常集中,在线评论涉及多个领域的概念,如与产品运输相关的物流,电商平台相关的店铺、客服,产品本身涉及的专业概念等。

4. 消费者属性。虽然产品领域具有大量的概念,但消费者对于这些概念的关注度是不同的,对企业来说,将主要精力放在消费者重点关注的概念上,更有利于后续的口碑获取与运营决策。

因此,在获取领域术语时,即要参考领域专家知识,又要充分考虑术语的社会化属性,还要将多个领域的概念加以整合。基于此,本文提出了基于领域细分与观点五元组的概念获取思路:首先将领域概念划分为几个细分领域,之后根据每个领域的特点分别获取概念,最后将所有领域的概念进行整合。领域本体的概念可分为四个模块。

一是产品特征模块。该模块对产品相关概念进行了描述。产品结构相关概念可从产品官网、技术论坛等领域专家知识获取。此外,由于口碑的社会化属性,还应从社会化文本中提取特征概念,比如从社会化标签中提取标签集、从在线评论文本中抽取产品特征。

二是消费者模块。消费者是口碑评价的主体,消费者相关概念的获取可参考电商平台新用户注册时需要录入的相关字段。

三是情感模块。情感是消费者评价中特征的具体指向,具有情感极性和强度两个属性。情感极性有正向、负向和中性之分,情感强度通过 “非常”、“有点儿”等程度副词表现。可将事先定义的情感词典导入本体知识库完成情感模块创建。目前已经构建的情感词典有HowNet情感词典、大连理工大学情感词汇本体、同义词词林等。

四是时间模块。时间描述了消费者评价发出的时间,是Liu Bing(2012)[10]提出的观点五元组(实体,分面,情感,持有者,时间)中的重要元素,从在线评论网站数据库中即可获取。

这四个模块构成的领域本体涵盖了观点完备的元素,能更好地辅助进行观点挖掘。

四、结论与展望

本文通过对观点挖掘、领域本体构建相关理论技术进行分析,发现了有关领域本体概念获取方法的成果与不足,并在此基础上提出了优化的方法——基于在线评论特点与观点五元组的领域划分本体构建方法。本文目前仅是提出了理论思路和技术路线,希望未来能将文中所构建的方法应用于具体的领域本体构建过程中,更好地验证本文所提出方法的有效性。

参考文献:

[1]Serrano-Guerrero J, Olivas J A, Ro

mero F P, et al. Sentiment analysis: A review and comparative analysis of web services[J].Information Sciences, 2015(05).

[2]韩忠明,李梦琪,刘雯,张梦玫,段大高,于重重.网络评论方面级观点挖掘方法研究综述[J].软件学报,2018(09).

[3]王付国.基于领域本体的网络评论观点挖掘[D].吉林大学,2014.

[4]Gruber T R. Toward principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies, 1995(06).

[5]马捷,刘小乐,黄岚,张喜艳.教育领域本体构建研究[J].情报理论与实践,2012(07).

[6]李庆赛.旅游领域本体构建研究[D].郑州大学,2015.

[7]王双凤.旅游目的地本体构建研究[D].湘潭大学,2016.

[8]翟羽佳,王芳.基于文本挖掘的中文领域本体构建方法研究[J].情报科学,2015(06).

[9]陈云志.肝炎本体构建及语义相似度研究[D].浙江大学,2017.

[10]Liu B. Sentiment Analysis and Opi

nion Mining[C]. Synthesis Lectures on Human Language Technologies. Morgan & Claypool,2012.

*本文系江蘇省社会科学基金项目“大数据视角下基于领域本体的网络舆情预警研究”(项目编号:16TQB009),江苏省高校哲学社会科学研究基金项目“大数据环境下基于情境语义推理的移动个性化推荐研究”(项目编号:2017SJB1892)的研究成果。

(作者单位:曹书芳,江苏大学;李金海,泰州学院)

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!