时间:2024-04-25
廖倚雪 胡雨新 叶慕戎
摘 要:在当今的大数据时代下,股市的相关信息急速增长,对股票市场的运行产生了深刻影响。为从海量的股市要闻与股民的选择倾向中,本文使用爬虫技术收集股民的评论与反馈,并通过Bert模型进行预处理,再建立LDA—LSTM模型,提取出市场情绪并对观点进行简明扼要地总结,提高金融工作者的工作效率,帮助股民更精准地了解市场,辅助对市场舆论的引导,成为如今研究热点之一。
关键词:舆情分析;股市预测;神经网络;LDA
1引言
在社交网络的崛起与发展中,社会的舆情网络起到了非常重要的作用,对于舆情的把控和分析,一直都是国家长期以来密切关注的问题,准确应对和积极引导舆情发展十分重要,关于舆论处理的方案也不断得到发展和完善。因此,理解社交媒体、网络舆情动态等信息对投资者行为的影响机制颇为重要。
股票市场的大数据分析,需要使用计算机技术抽取海量舆情观点,对文本进行挖掘爬取处理,将特征进行整合,可以分析出股票市场发展动态的优劣,为投资者提供一些建议和方法。面向股票市场。随着文本情感分析的高速发展,简单文本极性判断,已经不能满足人类对于互联网飞速发展的需求,跨学科、跨平台的研究,将文本分析技术广泛运用在不同的领域。将引导机制、营销理论以及多元盈利模式融合,提高了模型的性能。提出了学习算法架构,将合适的模型嵌入算法架构中,以提高模型的语义分析能力。随着数据挖掘的深入,面向股票市场领域的细粒度情感分析技术被得以运用,突破了隐式情感难提取、文本不规范等问题。学者们运用实践企图证实舆论与股票市场的相关性以及试图运用舆论预测市场的走向。较早时期,有学者利用微博进行舆论分析,随后,学者以华尔街为例,证明股市收益与舆情热度存在正相关性[1]。有学者以上证50成分股为例,证明传统金融理论已无法满足投资者的需求,如今研究股票市场应当基于投资者情绪以及舆论[2]。
2文献综述
2.1 LDA
2003年,狄利克雷分布主题模型(Latent Dirichlet Allocation,LDA)由David Blei, Andrew Ng和 Michael I. Jordan提出,由于模型的简单和快捷,如今被广泛的使用。最早,有学者提出在新闻文档中进行了LDA建模之后,加入贝叶斯方法,即建模后确定符合该新闻文档的最优主题个数,提升了LDA模型拟合文档的性能[3]。张志飞针对短文本的特征稀疏性和上下文依赖性两个问题,提出了K近邻方法和LDA相结合的新方法,优于传统性能2.5%到5%[4]。随后王春龙,张敬旭.将K-means算法与LDA模型相结合,使得迭代次数明显减少,聚类结果更准确[5]。随着LDA性能的提高,有学者将他运用于舆论分析。阮光册针对用户评论内容短、信息量少的特征,利用LDA模型从冗杂的用户评论高效分析出有价值的信息[6]。对于LDA模型,采用无监督学习算法,无需手工标注的训练集,仅仅利用文档集合以及一定的数可以将每篇文档的主题按照某种概率分布的形式显示出来。对于文本的处理以及数据的挖掘,LDA模型起到了显著的作用,是一个十分常用的办法,可以有效的从文本中提取所需的重要信息。对于文本中隐含情绪的提取以及建模,LDA模型克服了传统文本相似度的比较方法中的缺点,大大提升了提取分析的效率。
2.2 LSTM
长短时记忆网络(Long Short-Term Memory,LSTM),它是循环神经网络(Recurrent Neural Network,RNN)的一种。LSTM由于其设计的特点,非常适合用于文本数据的处理。传统神经网络中普遍存在着一个缺陷,即无法将先前的信息连接到当前的任务,因此一直以来学者们都致力于解决该问题提出了种种方案,其中RNN试图通过循环来让信息连续传递,然而遗憾的是,随着句子距离的增加,RNN将难以连接相关信息,也就是俗称的远程依赖问题;因此,Hochreiter & Schmidhuber教授在1997年发明了长短时记忆网(简写为LSTM),该网的设计本意正是希望克服远距离依赖问题,也在各种任务中取得了优异表现,此后学者们更是开发出了LSTM的各种变体,如Bi-LSTM,GRU等等,不断推陈出新的模型与水涨船高的任务要求,为研究者的模型选择也提出了挑战。在2017年,国内学者就开始将长短时记忆网络运用到中文文本的情感分类中[7],由于中文具有一词多义,语法晦涩特殊,表达方式也有直接性和隐喻性等多种神经网络难以分析的特点,突破了传统深度学习情感分类中只采用词特征的局限性。随着LSTM的发展,在电子商务、信息管理、财务新闻、股票舆情分析等领域,长短时记忆网络被不断的运用在其中。在股票市场中,市场的波动性大,导致投资者难以把控相关信息,所以股票的预測一直是人们争先研究的对象,最开始通过寻找线性规律得出结论。为了提高股票预测的精度,有学者提出一种基于PCA和LASSO的LSTM神经网络股票价格预测模型,使用LSTM模型进行平安银行股票收盘价的预测,提高了预测的精度。[8]在达到更好效果以后,有学者通过引入卷积神经网络和双向长短时记忆模型来挖掘股评情感倾向,提出一种深度融合股市财务数据特征和新闻情感特征的股票预测模型。[9]近年来, LSTM受到了很多科学家的青睐,其在舆情分析任务中的应用均取得了较好的效果,并在多个领域成为不可替代的一部分。
2.3 BERT
自2018年底google的AI团队发表论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》、开源全部代码及Tensorflow实现、Google团队发表的论文中提出了BERT预训练网络的概念,在11种自然语言处理任务上获得了最新成果,被认为是NLP业内的里程碑(Jacob Devlin,2018)[10]
对比以往模型,BERT模型因其独特的Masked语言模型和Next Sentence Prediction机制,解决了传统word2vec模型無法解决的多义词表达问题,真正意义上的捕捉到了双向的词语、句子级别语义信息,理解了词句中的潜在含义及关系;同时,已在大规模数据集上经过预训练的模型完全开源,这也使得Bert模型的调用相当便捷,节省了研究者大量的时间、精力与资源。
通过调用Google发布的预训练模型chinese_L-12_H-768_A-12,根据下游任务对模型进行微调,额外添加输出层,得到句子中每个字的向量表示,获取字向量编码作为底层特征。经过BERT模型训练出的字向量可以更加准确地表示出词语间的语义关系,方便后续神经网络模型的训练,提高神经网络预测的准确性。关于正式训练模型,团队采用了BiGRU-CRF结构,GRU是一种特殊循环神经网络,它将遗忘门和输入门合成为一个单一的更新门,同时混合单元状态和隐藏状态,有效解决了长程依赖问题,缓解了梯度弥散。
3模型
3.1基于LDA的文本特征构建
对于分类和数据降维,应用线性判别分析是最经典常见的线性学习方法。与PCA这种无监督的数据降维方法不同,LDA是一种有监督的数据降维方法,通过充分利用训练样本上的类别标签信息对样本数据进行降维,不仅像PCA一样达到了保留尽可能多的数据样本信息的效果,还解决了PCA中有时无法寻找到最佳投影方向的问题,使得投影后同类样本尽量近,不同类样本尽量远。
利用LDA主题模型挖掘股票文本的隐形含义,分析主题的特征关联关系。特征关联关系包含有情绪指数(EX)和情绪分歧度(DX)。投资者的情绪指数(EX),被定义在[0,1]之间的浮点数,这个数越接近1,代表该文本表达的积极情绪越强,反之,则代表该文本表达的消极情绪越强。得到分数之后,可以将之量化。求某一日情绪得分大于0.5的评论所占的比例可得。而投资者的情绪分歧度(DX)也可能对股票价格和收益率产生影响,分歧度越大说明投资者的意见差异较大,两级分化严重,因此情绪分歧度可作为判断金融风险特征关联水平的参考条件。情绪分歧度可以通过将模型输出的数据可视化来体现。得到主题的关联关系可以进行下一步的模型预测。
3.2基于LSTM的舆情走势预测
长短时记忆网络(LSTM)是一种用于处理序列数据的神经网络模型,在自然语言处理中广泛应用于实体抽取,情感分析等方向。LSTM模型由遗忘门、输入门、输出门这三部分组成,引入了细胞状态的概念。LSTM增加了对过去状态的过滤,减少了影响的状态,从而可以选择哪些状态对当前更有影响,而不是简单的选择最近的状态。相比RNN只有一个传递状态ht,LSTM有两个传输状态,一个ct(cell state),和一个 ht(hidden state)
关于LSTM的计算公式如下:
其中,W为权重矩阵,σ为激活函数,b为偏置项。it,ft,ot和ct分别表示输入门、遗忘门、输出门和单元激活向量,ht表示单元输出激活函数。
通过LSTM模型可以更好的捕捉股票市场文本之间的依赖关系,LSTM可以通过训练过程中学到记忆哪些信息和遗忘哪些信息。基于在LDA主题模型中得到的关联关系,再结合股票的发布时间、涨跌情况、股民评价、公司经营状况等轨迹,预测它们未来的发展热度,使用神经循环网络,能够更好的拟合波动趋势,误差较小,预测精度较高,能在一定程度上为投资者提供有效的建议。
4结论
随着互联网信息技术的高速发展,社交平台的迅速崛起,呈现出井喷式的增长,信息发布与传播速度较快,导致舆情质量参差不齐,社会投资者难以辨别有效信息。社会平台以其低成本、开放、便捷、交互等优势为公众的诉求提供了重要的渠道,但由于不同投资者获取信息的渠道、面对社会话题时的偏好、立场、影响力存在诸多差异,以及在解读信息过程中的认知偏差,传播言论的方向、广度等均会影响其在股票市场中的决策行为,进而对股票收益率和流动性产生影响。因此本文基于前人基础,对股票的相关舆论信息进行数据挖掘、基于LDA构建文本特征、基于LSTM预测舆情走势,相信在股票投资领域将发挥重要作用。
参考文献:
[1] 王超. 舆情热度对股市收益的影响[D].浙江大学,2020.
[2] 刘逍然. 基于网络舆情的投资者情绪与股票市场的实证研究[D].南京邮电大学,2020.
[3] 赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013,34(04):732-737.
[4] 张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(06):1587-1590.
[5] 王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(01):249-254.
[6] 阮光册.基于LDA的网络评论主题发现研究[J].情报杂志,2014,33(03):161-164.
[7] 吴俊江,基于深度学习的中文文本情感分类及其在舆情分析中的应用研究,湘潭大学,2017
[8] 胡聿文.基于优化LSTM模型的股票预测[J].计算机科学,2021,48(S1):151-157.
[9] 徐月梅,王子厚,吴子歆.一种基于CNN-BiLSTM多特征融合的股票走势预测模型[J].数据分析与知识发现,2021,5(07):126-137.
[10] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, arXiv:1810.04805 [cs.CL]
本文得到上海立信会计金融学院大学生创新创业训练计划(S202111047110X)基金支持
作者简介:
廖倚雪,女,汉,2001年11月生,四川省成都人,本科在读,上海立信会计金融学院统计与数学学院,应用统计专业,研究方向:自然语言处理。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!