基于非结构化数据挖掘的原油价格预测研究

时间：2024-05-04

卢文君

摘要：对于油价波动，乃至于各类市场价格（如期货、外汇、股市）的波动预测，经济学界已经有几十年的研究。然而受限于时代因素、技术因素、从业者的知识背景等因素，经济学界对于价格波动的研究主要集中在技术面，建立的模型多为基于各类结构化数据的公式型预测模型，使用机器学习手段的属于少数，而使用非结构化数据和近年来领先的深度学习技术相结合的更为稀有。从这个角度而言，本研究具有跨学科、跨领域的特点，对于此类研究有贡献意义。

关键词：原油价格预测;神经网络;非结构化数据;情感分析;机器学习

中图分类号：TP311.12文献标识码：A文章编号：1672-9129（2018）06-0024-03

Research on Crude Oil Price Forecast Based on Unstructured Data Mining

LU Wenjun*

（Research Institute of CNPC Beijing Richfit Information Technology Co.， Ltd.， Beijing， 102206， China）

Abstract：For the fluctuation of oil prices， and even the volatility forecast of various market prices （such as futures， foreign exchange， stock market）， the economics industry has been studying for decades. However， due to factors such as the times， technical factors， and the knowledge background of practitioners， the economics research on price fluctuations mainly focuses on the technical aspects. The established models are mostly formula-based prediction models based on various structured data， using machines. Learning methods are a minority， and the use of unstructured data combined with leading deep learning techniques in recent years is even more rare. From this perspective， this study has interdisciplinary and cross-disciplinary characteristics and contributes to such research.

Keywords：crude oil price forecast; neural network; unstructured data; sentiment analysis; machine learning

引用：盧文君. 基于非结构化数据挖掘的原油价格预测研究[J]. 数码设计， 2018， 7（6）： 24-26.

Cite：LU Wenjun. Research on Crude Oil Price Forecast Based on Unstructured Data Mining[J]. Peak Data Science， 2018， 7（6）： 24+26.

引言

国际原油价格的影响包括方方面面：对于石油能源产业链中的企业或者石油能源消耗型企业，油价决定了企业的生产成本和利润;对于国际原油期货的市场参与者（如金融机构、对冲基金、个人和团体投资者），油价影响了他们的投资收益;对于国家和社会，油价影响宏观经济的生产成本、人民的生活成本甚至于社会的稳定。若利用大量真实历史数据构建一个模型能够提高油价涨跌判断的准确率，对于一些机构和个人来说，还是很有参考价值的。

本研究旨在真实互联网文本数据（如新闻、社交媒体文本等）和真实的国际原油期货（如纽交所的西德克萨斯轻质原油（WTI））价格之间找到一种关系，针对未来的文本数据，可以依据上述找到的关系预测对应时间的油价。或从机器学习的角度描述：建立一套机器学习模型，以预测未来油价的涨跌（二分类）、涨跌幅区间（多分类），或涨跌幅数值（回归）。问题可以细分为以下3个有所区别的子类：1）基于突发新闻的短期（1-30分钟）油价走势预测（分类问题）;2）基于政经类新闻情感倾向的油价走势预测（中短期，2hours-7days）（分类或回归）;3）基于社交媒体情感倾向的油价走势预测（中短期，2hours-7days）（分类或回归）。本研究将集中于第一类问题。

1 模型介绍

本研究建立了一个基于深度学习技术的模型，并且利用词嵌入模型（word embedding）、情感分析等方法对文本数据进行抽象和表示，以尽量提升模型的效果。

1.1 文本数据收集

依据行为金融学理论，市场投资者会依据外部信息的变化，并依据自身的经验对所获得的信息进行分析，从而对投资策略进行相应的调整。而权威媒体发布的新闻消息，往往是投资者的主要信息获取渠道。因此，由新闻媒体发布的一些新闻，尤其是与原油供需、宏观经济、产油国地缘政治、战争、自然灾害等方面相关的内容，通常会引起投资者的高度关注，并且依据这些新闻的内容，会对投资者决策起到直接的影响。因此，本研究将设法获取权威媒体第一时间发布的新闻作为训练数据。此研究使用的文本数据是通过网络爬虫等技术手段从路透社官方网站上获得的从2016年10月至2017年10月的总共27万条新闻数据，这些新闻涵盖经济、世界时事、体育、娱乐等各个方面，其中各类经济新闻是数量最多的部分。

1.2 原油价格数据处理产生标签

如前所述，本研究利用国际原油期货数据（纽交所的WTI原油价格数据）作为有监督机器学习模型的标签。数据时间范围为2016年10月1日至2017年10月1日，数据粒度为1分钟级。

利用此数据产生初步标签的策略是：标签时间点向后半小时内有交易，总收益为正，且此时间段内上涨的次数大于下降的次数，则此时间点的初步标签为正;标签时间点向后半小时内有交易，总收益为负，且此时间段内上涨的次数小于下降的次数，则此时间点的初步标签为负;标签时间点向后半小时内有交易的其他时间点的标签为平。

采用上述粗放的标注方法，可以通过程序自动实现，但存在一定的问题，即某一油价异常变动的时间点的新闻，有可能是实际造成油价变化的主因也有可能不是，若将所有新闻全部按规则标记可能会引入一些噪声，即实际不相关文本也被标记。对此将采用参考初步标签进行人工标注的方法来解决这一问题。

1.3 文本数据与标签数据融合，人工标注

有监督机器学习过程需要使用大量有类别标签（在油价预测的场景中可以是涨、平、跌等分类方法）的训练数据（本场景中是各类文本）对模型进行训练，因此需要准备文本数据和可以作为文本数据与油价变化关联关系的标签数据。将带有新闻的表与上一步骤中由原油价格数据产生的类别标签表以时间为索引进行合并，对文本和标签的对应关系进行检查，抽取新闻与石油有关且与标签对应正确的标注数据作为试验数据集，最终产生带有正、负、平标签的数据各1700条，共5100条。

1.4 特征工程

在将数据导入到模型训练之前，一个非常关键的任务是对数据进行特征工程处理。通过精细的特征工程对数据进行抽象和提取，能最大程度的将文本中的本质因素提取出来，从而增加模型的判别依据。本研究采取的特征有：文本中词和词与词之间关系的特征（词以词嵌入表示后通过CNN+LSTM提取）、文本的情感特征（通过情感分析技术获取），上述特征导入模型之前用单独的模块进行处理。

（1）文本中词和词与词之间关系的特征

计算机系统是处理二进制数据的系统，而人类语言是抽象的符号系统。因此在处理任何文本类任务的时候，第一个关键任务就是将文本符号转化为数字。文本表示方法作为后续工作的基础，对模型训练和预测效果有着决定性的影响。本研究采用近几年发展起来的词嵌入技术，将文本中的词转换为特定长度的实数值向量。该方法作为目前的主流文本数字化表示方法，在效果上比早年的向量空间模型有很大提升。

在对文本进行基本的格式处理后，需要对文本进行分词、词干还原、去标点和停用词、大小写字母转换的预处理操作，然后对文本进行词嵌入处理。词嵌入技术（word embedding）是近几年兴起的文本表示技术，从机器学习的角度看，它是一种比传统词袋模型（bag of words）的表示能力更强、信息更浓缩的文本特征提取技术，然而这种技术有一个缺陷就是训练成本高，提出该技术的Google提供了开源的已经训练好的词向量，是Google利用千亿级别单词量的语料训练出来的。在进行此步驟时，首先遍历所有文本，把涉及的词全部列出并按出现频率排序形成词序表，这样，每个词都有了唯一的序号，然后把文档中的词全部转换为词序号表示，词序表里的词可以用Google训练好的词嵌入模型进行映射，这样文档中的每个词就转换成了用300维向量表示。然而，完成这个步骤后发现，在前期处理过程中，出现很多不构成词的字符串，这些字符串在Google的词典中找不到所以为空，这些字符串既不起作用又占用空间，造成后期深度学习模型维度大幅增加以致内存溢出。基于此原因，对这些字符串进行了过滤，只留下可以产生有效信息的词，然后再次按以上步骤对每篇文章进行词嵌入操作。

通过上述词嵌入技术，可以将句子中的词转化为富含信息的高维向量。然而人类语言的文本是由词有机组合构成的，如果将句子简化为若干词嵌入向量的简单加和，就会损失包含在词语次序中的信息。为了应对这一问题，本研究利用深度学习中的卷积神经网络（CNN）和长短期记忆网络（LSTM）来提取文本序列的次序信息。CNN网络在本任务中的用途是通过其滑动窗口的思想，将句子中的每个词以及其附近的若干词组合起来提取其关联关系同时进行降维。LSTM网络则善于保存句子序列中的长距离依赖关系，以应对长句等复杂句式的特征提取。提取文本信息部分的处理流程为，以词嵌入作为文本中的词的数字化表示，将由词嵌入表示所构成的句子矩阵通过CNN网络进行短语特征提取和降维，将CNN网络的输出作为LSTM网络的输入，进一步提取句子结构信息和长距离关联关系文本特征。

深度学习模型通过学习输入文本特征和最终预测结果与实际类别之间的差异，利用参数反向传播算法，不断调整模型中的参数值，最终找到能够最贴切拟合真实结果和输入文本之间关系的参数集合。这样一来，在未来预测过程中，对于未知油价变化结果的新文本，可以通过训练好的上述系统通过前向传播过程计算出其预测值作为系统的预测结果。本研究为了对比不同模型的效果，分别用了lstm、cnn+lstm、双向gru、cnn+双向gru模型进行试验。由图4可看出，模型训练3轮后就开始过拟合了，因此将训练参数epoch定为3。

（2）文本情感分析

情感分析技术是从情感方面对文本进行特征提取的一种重要手段，该方法在富含情感倾向性的文本的各类任务中效果显著。本研究通过利用开源情感词典构建情感分析分类器模型对文本进行了情感分析，并将情感值作为特征加入到后续模型中。

1.5 分类模型

本研究要建立文本数据和原油价格变化之间的关系的模型，主要将该任务看作一种分类任务。如前所述，将各类文本数据作为输入数据，将原油价格变动作为文本的对应标签，通过训练模型找到二者之间的关系，从而使该模型能够对未来的新闻文本所可能导致的油价变化进行预测。

由圖5可直观地看出各参数之间相关关系，二分类中标签与情感分析中的正向参数和神经网络模型的第2个参数（图中标1）更相关，三分类中标签与情感分析中的正向参数和神经网络模型的第3个参数（图中标2）更相关。

机器学习模型分为模型训练和实际预测两个过程。本研究将全部试验数据中的80%作为训练集，其余的20%作为测试集，在完成上述特征提取的步骤后，两项特征数据融合通过分类模型查看效果。分类模型试验了贝叶斯（NB）、逻辑回归（LR）、支持向量机（SVM）三种模型。

2 模型效果

综合以上实验结果数据可看出，cnn+lstm的效果相较其他神经网络模型在本实验中的表现是最好的，在加入情感分析特征后可以进一步提高模型的正确率。

3 结束语

本研究参考真实的油价变化对新闻数据打标签，利用深度学习的方法提取了新闻文本的特征，又通过情感分析的方法提取了新闻的情感特征，并将两者相结合通过机器学习的分类算法研究新闻与油价变化之间的关系，在二分类、三分类模型中取得一定的效果，但由于时间精力及资源所限，仍有以下未尽之处值得深入探讨研究：

在基于新闻数据进行短期原油价格预测建模时语料的筛选是至关重要的，在本研究中曾尝试直接使用粗放标签的原始新闻数据进行建模，结果几乎是随机的无规律可循，而人工筛选标签的方法实质上改变了原始新闻的数据分布，在真实场景下效果未必稳定，因此找到一个高质量的数据源或者具备大量有经验专家的标签文本是实际应用中成功的前提和关键。在计算资源满足的条件下还可以尝试提高神经网络模型的复杂度观察预测效果。

单纯使用词嵌入方法的一个局限性在于，该方法主要是在文字层面对文本进行特征转化，许多实际造成由新闻文本引起投资者改变投资策略进而引起油价变化的现象，不单纯是由新闻文本本身内容所导致，而是由于人类通过阅读文本从认知层面进行联想和推理而得出的结论。对文本进行逻辑上的分析在现代技术条件下是非常困难的任务，可以尝试基于认知理论的文本深层内容表示方法，将新闻文本中可能联想到的词语补充到文本中以模拟人类认知过程，从而提高模型效果。

另外，许多国际油价市场的投资者都会关注参与推特、脸书、各种论坛等各类社交媒体上的信息，他们经常会在社交媒体上发表与市场投资相关的感想甚至是预测和见解，可以尝试研究社交媒体上人们表达出来的情感倾向性与各类市场价格的波动的因果关系。

4 致谢

此论文的完成要感谢中油瑞飞公司中青年科技创新活动的资助，感谢北京大学隋吉哲同学实习期间在前期理论探索及数据搜集方面的贡献，感谢马君博士的大力支持和同事霍魁的热心建议。

参考文献：

[1] 基于情感分析的国际原油价格走势预测研究_徐振敬（2016年，硕士论文，北京化工大学）.

[2] 基于深度特征提取的文本情感极性分类研究（2017年，硕士论文，山东大学）.

[3] A review of natural language processing techniques for opinion mining systems（2017年，Elsevier ）.

[4] Associated Activation-Driven Enrichment_ Understanding Implicit Information from a Cognitive Perspective（2015年，期刊）.

[5] “Boom” or “Ruin”– Does it Make a Difference？ Using Text Mining and Sentiment Analysis to Support Intraday Investment Decisions（2012年，期刊，IEEE）.

[6] Text mining for market prediction_ A systematic review（2014年，期刊）.

上一篇：计算机数据挖掘技术的开发及其应用
下一篇：基于数据与自然美学—未来信息设计的可能性

免责声明

我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!

基于非结构化数据挖掘的原油价格预测研究

免责声明

相关文章推荐

推荐阅读

推荐期刊

新闻传播杂志

魅力中国杂志

山东医药杂志

知识窗杂志

重庆医学杂志

当代护士下旬刊杂志...

学理论杂志

黄河之声杂志