互联网证券舆情多空倾向性判别研究

时间：2024-07-28

莫倩，赵威，苑峥

（北京工商大学计算机与信息工程学院，北京100037）

0 引言

由于近年来我国互联网和证券市场高速蓬勃的发展，一些不法分子开始以一种新的手段牟取暴利，他们通过对网络证券舆情的操控达到自己的目的。本课题所研究的证券舆情多空判别和传统意义上的涨跌预测存在着本质的差别。涨跌预测研究的目标是分析证券涨跌的客观规律，其数据来源包括公司业绩、行业分析、来自传统媒体以及网络媒体的各类信息，以客观数据为主。

以国内中科院计算所、北京大学［1］、北京理工大学［2］为代表的国内高校科研机构在证券舆情分析、舆情监测与预警方面进行了大量的研发工作，他们的部分成果已经形成了相应的系统并投入使用。由人民网、证券时报和人民在线一起发起，建立了中国上市公司舆情中心［3］，其目的就是希望通过提供专业高效的舆情监测平台，为上市公司服务、为证券市场服务。

本文介绍了一种互联网证券舆情多空倾向性判别方法，阐述了证券舆情系统的建立以及关键技术；介绍了证券舆情相关语料库的建立；描述了单篇文章的多空文章判别技术和多空综合判别技术。

1 舆情监控系统

本课题所设计的互联网证券舆情监测系统是一个针对证券领域的网络舆情监测系统，总体框架如图1所示。互联网证券舆情监测系统可以分为主要的三个模块：证券信息的收集模块、证券信息清理分析模块和证券信息服务模块。该系统以互联网信息抽取、信息的智能分析与处理等技术为基础，完成互联网上证券舆情的自动采集、自然语言处理、排重去噪、自动分类、观点倾向性分析等功能，实现对网络证券舆情的监测。

（1）证券舆情采集模块：系统设计采用Web信息抽取工具，对互联网上各种交互式数据源中的证券舆情信息进行数据的采集。

（2）证券舆情的分析与处理模块：此模块利用各种自然语言处理技术与文本挖掘技术通过数据访问接口对采集到的证券舆情信息进行智能的分析与处理，包括语言分析、自动消重、自动摘要、关键词提取、自动分类、关联分析、话题跟踪、倾向性分析等。

（3）证券舆情的服务模块：证券舆情的服务模块是系统用户和证券舆情系统的接口，该系统利用证券舆情信息清理和分析模块的各项技术为用户提供服务，如舆情的预测预警、检索、简报制作等。

图1 互联网证券舆情监测的总体架构图

本课题选用可视化Web信息抽取（Visual Web In-for mation Extraction）［4-7］工具——VWIE 来进行证券舆情的采集工作。该工具是本课题组自行研制开发的一种基于Wrapper的Web信息抽取工具，采用了基于DOM的Web信息抽取技术。该技术对网页的DOM（Document Object Model）结构进行分析，将HTML格式看成XML格式来进行处理，经解析器Parser分析网页，生成树形图。利用Xpath对树形图的节点进行定位，用XSLT的抽取规则完成信息抽取［8］。

在抽取web网页之前，系统要对Web网页的文本进行清理分析。采用基于JAVA的HTML Parser对页面进行预处理，对标签进行定位，构建页面的DOM树。基于DOM的方法，能从较大的逻辑节点抽取信息，也能对小的单元节点进行操作。而且，此DOM树是可以进行编辑的，经过简单的编辑可以很容易地生成一个全新的网页。本系统采用XPath对DOM树中的各个节点进行定位处理。

2 证券舆情相关语料库

证券舆情语料库主要针对多空判别的需求，对证券舆情消息中常见的概念进行分类，并建立不同类别直接的关联关系。多空判别不同于传统基于主题的分析，简单的通过分类聚类的技术，或者是采用倾向性判别技术往往很难达到理想效果。

证券实体对象库是多空判别的研究对象，主要包括在上交所、深交所、港交所等上市的公司企业信息、股票代码信息、行业信息等数据。

（1）首先从上交所、深交所、港交所、新浪财经、和讯等网站抽取证券实体对象的名称、股票代码、行业等基本属性信息；

（2）从专业股票软件如：大智慧、通达信等获取证券实体对象的基本属性信息；

（3）将抽取的信息和从专业软件获取的信息进行对比，校正并补齐缺失信息。

证券舆情信息点库主要包括证券市场多空的评价角度，根据金融专业的分类规则，描述如下：上市公司人员情况、财务状况、股权变更、经营状况、股价异常等几个方面。具体见表1。

表1 证券舆情信息点库

创建证券舆情信息点库的完整流程如下：

（1）创建证券舆情信息点库的第一层信息点。

根据金融专业的领域专家提供的分类规则，确定上市公司层次下的第一层信息点，包括六个主要信息点，如表1所示。

（2）对第一层每个信息点进行扩展，生成第二层信息点。

由于沪深300指数能够反映中国证券市场股票价格变动的概貌和运行状况，并且可以作为投资业绩的评价标准［9，10］，因此我们选取沪深300中的100只股票作为候选代表。这里提出了一种基于搜索引擎的证券舆情信息点的抽取方法。将沪深300中的这100只股票的名称与第一层信息点中的信息结合，形成一个词对，描述为WP＝＜stockname，keyword＞。将词对WP输入到搜索引擎中，得到返回结果的列表集RL。将列表集的前20条记录作为候选结果进行抽取，抽取的每一条记录都是一个小文本。对每一个小文本进行关键词提取［11～13］的操作，得到相应的关键词集。

（3）迭代计算。将股票名称与第二层信息点组成新的词对WP’＝＜stockname，key word’＞，重复使用基于搜索引擎的证券舆情信息点抽取方法，迭代计算，得到第三层信息点集合。

（4）根据经验与金融行业规则，补充相应的金融信息点。

对初步得到的证券舆情信息点库进行完善，根据金融行业规则和日常生活经验，对结果集进行补充，得到最终的证券舆情信息点库。

证券舆情多空属性库包含表示多空属性的词语及表示多空程度的词语。

（1）抽取300篇证券舆情信息作为初始证券舆情多空属性词库的数据源。

（2）对这300篇证券舆情信息进行语料预处理，将文本进行分句，然后进行分词和词性标注处理，并识别其中的名词、动词、形容词等最可能表示多空属性的词性类别。

（3）读取x ml文件，将名词、动词、形容词提取出来作为生成的候选词集合，然后利用“哈工大信息检索研究中心同义词词林扩展版［14，15］”，以现有的候选词集合为基础，查找其同义词，补充到候选词集合中。

（4）候选特征词过滤，对候选词集进行人工筛选，剔除不满足条件的词语，得到最终的证券舆情多空属性库。

3 多空综合判别技术

多空综合研判主要应用行为金融学的模型框架，形式化表述如式（1）：

式中，m是单独的消息、M是整个消息的集合、d是信息点、D是信息点的集合、bb_credit是多空计算的函数、BBCredit是多空判别函数、object是需要判别的证券实体对象。

主要判别过程如下：

（1）统计每条微观消息的多空态度与权重。

（2）消息的可信度计算：主要依据消息的媒介形式、信息来源、作者、转载情况、回复数量等情况综合计算。

（3）消息的影响力分析，主要依据消息的点击以及回复的数量，同时考虑消息的媒介形式、发表的媒体、消息作者。

（4）按照每天微观消息的信息点进行分类整理；综合计算每个信息点的多空对比数据。

证券舆情存在“报喜不报忧”的传统。因此，本课题要进一步修改综合判断模型，具体想法为：引入历史多空数据维度，也就是观察一段时间的情况，看多消息总数量和比例的特征。因此，判别模型需要修正如下：

式中，t为时间戳，α为调节因子，由历史多空数据与当前数据比对计算得出。结果如果是1.0不一定就是100%的看多，其结果更多的是一种比较意义。需要基于历史数据，进行机器学习，通过调节因子，得出更具准确度的结果。

4 结束语

本文的研究目的是从互联网海量异构数据源的证券信息中采集并分析出民众对特定证券对象的观点、意见和看法，依据微观的倾向性数据综合计算出舆情看空看多的走势。

在现有工作成果上，增加并改进证券舆情系统的功能，将那个证券本体的理论引入证券信息分类中，在分类中加入机器学习的方法，提高证券信息分类准确率，更精准地构建证券资讯与股票价格之间的关系，辅助证券监管部门的决策支持，为广大股民提供服务。

［1］李晓明，朱家稷，阎宏飞.互联网上主题信息的一种收集与处理模型及其应用［J］.计算机研究与发展，2003，40（12）：1667-1671.

［2］仇晶，廖乐健.网络舆情与网络文化安全预警技术研究［J］.信息网络安全，2008，6：59-61.

［3］佚名.中国上市公司舆情中心启动［J］.青年记者，2011，19：33.

［4］ Turney P D，Litt man M L.Measuring praise and criticism：Inference of semantic orientation from association［J］.ACM Trans.Inf.Syst.2003，21（4）：315-346.

［5］ Cope J，Craswell N，Hawking D.Automated discovery of search interfaces on the Web［C］.In：Proceedings of the 14th Australasian Database Conference（ADC2003）.Adelaide.2003：181-189.

［6］ Chang K C，He B，Li C，Patel M，Zhang Z.Structured databases on the web.Observations and Implications［C］.SIGMOD Record，2004，33（3）：61-70.

［7］ Zhang Z，He B，Chang K C.Understanding Web query interfaces：best-effort parsing with hidden syntax［C］.In：Proceedings of the 23th ACM SIGMODInternational Conference on Management of Data.Paris.2004：107-118.

［8］滕伟.面向Web信息集成的Web信息抽取中若干关键问题的研究［D］.上海：上海交通大学，2007.

［9］林潇.沪深300指数套期保值效果的实证研究［D］.成都：电子科技大学，2007.

［10］方智.基于多技术指标模型的沪深300指数走势预测［D］.南昌：江西财经大学，2012.

［11］梁伟明.中文关键词提取技术［D］.上海：上海交通大学，2010.

［12］蒋昌金，彭宏，陈建超，等.基于组合词和同义词集的关键词提取算法［J］.计算机应用研究，2010，27（8）：2853-2856.

［13］方俊，郭雷，王晓东.基于语义的关键词提取算法［J］.计算机科学，2008，（6）：148-151.

［14］程涛，施水才，王霞，等.基于同义词词林的中文文本主题词提取［J］.广西师范大学学报（自然科学版），2007，（2）：145-148.

［15］田久乐，赵蔚.基于同义词词林的词语相似度计算方法［J］.吉林大学学报（信息科学版），2010，（6）：602-608.