当前位置:首页 期刊杂志

基于长短时记忆神经网络的手足口病发病趋势预测

时间:2024-05-04

马停停,冀天娇,杨冠羽*,陈 阳,许文波,刘宏图

(1.东南大学计算机科学与工程学院,南京 210096;2.中国疾病预防控制中心病毒病预防控制所卫生部医学病毒学和病毒病重点实验室,北京102206)(*通信作者电子邮箱yang.list@seu.edu.cn)

0 引言

手足口病(Hand-Foot-Mouth Disease,HFMD)是由多种肠道病毒引起的一种常见传染病[1],2008 年5 月,卫生部将手足口病纳入丙类传染病管理,开始网络直报。手足口病具有散播快、流行性强的特点,并可在短时间内造成一定规模的流行,成人以隐性感染为主,常表现为无症状病毒携带者,多发于5 岁以下婴幼儿[2]。其症状主要表现为发热和手、足、口等部位的皮疹、疱疹,伴或不伴口腔溃疡,病情严重者可引起心肌炎、肺水肿、无菌性脑膜脑炎等致命性并发症,重症病例死亡率较高,危害严重[3]。研究手足口病的发病特点以及传播规律,并建立相应的时间序列模型来预测发病趋势是很有必要的,能够为制定预防措施提供科学依据。

近年来越来越多的学者从事手足口病病原体分析[4],其与气象因素的相关性研究以及流行趋势预测等方面的工作。Nguyen 等[5]研究了环境因素与手足口病发病的关系,一些研究表明,手足口病的季节性变化与降雨量、相对湿度、温度和气压有关[6-8]。虽然许多研究报告了平均温度或湿度与手足口病之间有显著相关性,但这相关性没有普适性,在其他地方没有显著性[9-10]。不同地区现有调查结果的不一致可归因于不同地理区域的天气条件,人口统计特征和卫生条件的多样性[11]。在预测方面,通常使用差分自回归滑动平均(AutoRegressive Integrated Moving Average,ARIMA)模型[12]或季节性差分自回归滑动平均(Seasonal AutoRegressive Integrated Moving Average,SARIMA)模型[13],并对未来的发病情况进行预测。Pons-salort 等使用传播动力学模型(Susceptible Infectious Recovered,SIR)结合基于粒子滤波的最大似然推理框架对日本20 种常见的病毒血清型进行建模并进行2 年的预测,结果较好,发现人类肠道病毒引起的疾病发病率与血清型特异性免疫有关[13]。但这些方法有一定局限性,ARIMA 模型不能对非线性关系进行建模,SIR 模型不能加入气象因素,无法充分利用多维度输入数据中信息。本文使用长短时记忆(Long Short-Term Memory,LSTM)网络模型能够有效解决这两个问题。

1 数据处理

1.1 数据来源

济南市和广州市的手足口病电子病例数据来源于中国疾病预防控制中心(Chinese Center for Disease Control and Prevention,CDC),电子病例数据包括病人年龄、所在地区及确诊日期(对患者的个人信息已进行脱敏处理),症状严重的患者,对其致病的病原体进行检测,并分为三类EV71、CVA16和其他肠道病毒。数据范围2010 年1 月1 日至2018 年12 月31 日。本文选取济南市和广州市手足口病进行研究,两市的发病模式不同,具有代表性,我国其他地区发病情况与两市相近。

相关的气象数据来源于中国气象科学数据共享服务网,包括济南市和广州市每日的平均气温和相对湿度。

1.2 统计分析

济南市是山东省省会,地处中国华东地区,位于北纬36°40′,东经117°00′,常住人口746.04 万人。据统计,2010—2018 年济南市共报告HFMD 111 638 例,男女发病比为1.46,发病年龄主要集中在0~6 岁(95.45%),以散居儿童为主(61.77%)。

广州市是广东省省会,地处中国南部,位于北纬23°06′,东经113°15′,常住人口1 490.44万人。2010—2018年广州市共报告HFMD 542 759例,男女发病比为1.6,发病年龄主要集中在0~6岁(96.66%),以散居儿童为主(75.46%)。

对于每日发病数据,以周为单位进行累计。对于气象数据,以周为单位取平均值。图1 为2010—2018 年广州市与济南市每周发病数统计。两市手足口病呈现不同的发病模式,济南市全年发病曲线呈现一年一个高峰期,峰值出现在5—7月份;而广州市全年发病曲线呈现一年两个高峰期,第一个高峰期峰值在5—6月份,第二个高峰期峰值在8—9月份。

表1 是济南市和广州市气象因素的统计值。济南市全年平均气温15℃左右,广州市全年平均气温22℃左右,广州市平均相对湿度高于济南市。

图1 济南市和广州市2010—2018年每周发病数统计Fig.1 Weekly incidence statistics of Jinan and Guangzhou from 2010 to 2018

表1 济南市和广州市2010—2018年气象因素统计Tab.1 Statistics of meteorological factors in Jinan and Guangzhou from 2010 to 2018

1.3 相关性分析

气象因素对传染病的发生、传播起着至关重要的作用,其不仅影响个体的自身免疫能力,还会影响病原微生物的繁殖和传播能力。HFMD 作为一种肠道病毒导致的传染病,适宜的温度和湿度必然会导致肠道病毒在外环境中大量繁殖并提高病毒的存活能力。各气象因素与手足口病发病数的秩相关系数(又称Spearman 相关系数)如表2 所示,各相关系数显著水平p值均小于0.05,具有统计学意义。结果表明平均气温与发病数存在强相关性,平均相对湿度与发病数存在弱相关性。

表2 气象因素与手足口病秩相关系数Tab.2 Rank correlation coefficients between meteorological factors and HFMD

2 网络模型

本章介绍了如何将预测问题转化为监督学习问题和LSTM模型的原理,以及模型多步预测的方式。

2.1 问题转化

本文使用滑动窗口将预测问题作为监督学习问题进行研究。手足口病的周发病数按时间排列可看作时间序列,用s=[s[0],s[1],…,s[T]]表示,每周的气象数据与之对应。在建模预测中,需要将数据作为向量传送给模型,该向量由固定时间步长的数据组成,可由序列s使用滑动窗口的方式获得,设滑动窗口的大小为nt。给定固定长度的过去值,建立模型的目的是预测时间序列未来的n0个值。这样,给定离散时间t的输入矢量定义为xt=[s[t-nt+1],s[t-nt+2],…,s[t]],需要做的是推断接下来的n0周的发病数,可以将输出定义为yt=[s[t+1],s[t+2],…,s[t+n0]]。

2.2 LSTM模型

LSTM 神经网络最早由Hochreiter 等提出,并由Graves 进行改进[15],是基于RNN 的一种完善,解决RNN 中易出现的梯度消亡问题。LSTM单元结构[16]如图2所示。

图2 LSTM单元结构Fig.2 Structure of LSTM cell

图2中存在3个控制门,分别是输入门、输出门和遗忘门,3个门的输出分别连接到1个乘法单元上,从而分别控制网络的输入、输出以及存储单元的状态。LSTM用两个门来控制单元状态c的内容,遗忘门决定了上一时刻的单元状态ct-1有多少保留到当前时刻ct。另一个是输入门,它决定了当前时刻的网络的输入xt有多少保存到单元状态ct。LSTM 使用输出门来控制单元状态ct有多少输出到LSTM 的当前输出值ht。LSTM单元更新公式如下。

遗忘门的公式为:

其中:Wfx和Wfh是遗忘门的权重矩阵,bf为偏置项。

输出门为:

其中:Wix和Wih是输入门的权重矩阵,bi为偏置项。

当前时刻的单元状态由上一次的单元状态按元素乘以遗忘门,再加上当前输入的单元状态按元素乘以输入门,符号∘表示按元素乘。

输出门控制了长期记忆对当前输出的影响:

LSTM最终的输出,由输出门和单元状态共同确定:

2.3 预测方式

大多数对手足口病发病趋势预测为单点预测,即预测下一周的发病数,会有较好的预测精度,但这对于制定预防策略意义不是很大。通过迭代预测的方式可以得到更长的预测结果。由于迭代预测将预测值当作真实值代入模型,会造成误差累积,随着迭代次数增加,误差会越来越大。在长期预测与误差累积之间做一个平衡,选择预测后12 周的发病。LSTM的步长设置会影响预测的精度,迭代预测时输入向量中不断补充预测值,导致真实的值数量下降,为了保证输入向量中至少有一半的真实值,LSTM 的步长设置为26 周。由于气象因素对手足口病的影响存在一定的滞后性,且手足口病有3~7天的潜伏期,气象因素采用前两周的数值。将手足口病的发病序列按照2.1 节的方式转换成输入序列,训练单个模型以进行预测下一周的发病数。在预测阶段,将预测的输出当作正确的输出,作为输入的一部分递归反馈,重复11次此过程。

3 实验结果

3.1 模型实现

温度和相对湿度为与气候相关的数据类别,与发病数据类别不同,将其加入到模型中,需要确保不会与发病数据互相干扰,又要保证加入的气象数据时间跨度适当,本文选择的方式如图3 所示,发病数据输入到LSTM 网络中,以捕获手足口病数据的长期序列属性,将LSTM 层的输出结果与气象数据进行连接,最后通过全连接层输出最终的预测结果。本实验中为气象因素,时间跨度为两周,每次迭代都更新。由于预测的范围为12 周,使用气象数据作为输入迭代时,不能用到未来的数据,测试集2018年的气象数据使用的是2015—2017年对应时期的均值。

图3 模型网络结构Fig.3 Network structure of the model

3.2 评价指标

模型的评估使用均方误差平方根(Rooted Mean Squared Error,RMSE)和平均绝对误差(Mean Absolute Error,MAE)衡量。RMSE 和MAE 的数值越小,说明模型的预测效果越好。RMSE和MAE的计算公式如下:

其中:xi为第i周实际发病数为模型预测值,n为序列的总样本数。

3.3 实验与结果

在实验过程中,LSTM 模型用python 和tensorflow 框架实现,并使用GPU 进行加速。采用自适应学习率并将初始值设置为0.001,为了防止训练集过拟合,训练中采用L2正则化。

表3为不同模型的第12周预测结果对比,LSTM为不加气象因素建立的模型,LSTMT 表示模型中加入温度,LSTMR 表示模型中加入湿度,LSTMTR 表示模型中同时加入温度和湿度。在分别加入温度和平均湿度之后,模型的预测结果有所提升,其中加入平均温度之后,模型预测精度提升较大。济南市数据集上,在同时加入平均温度和平均相对湿度时,结果最好,MAE 为74.9,RMSE 为128.3。广州市数据集上,同时加入平均温度和平均相对湿度时,效果不如仅加入平均温度,但好于只加入平均相对湿度,最好结果MAE 为427.7,RMSE为604。

表3 LSTM加入不同气象因素第12周预测结果对比Tab.3 Comparison of prediction results of the 12th week by LSTM model with different meteorological factors

对于济南市数据集,各个模型预测结果与真实发病数曲线大致相同(如图4),在加入气象因素之后,可以看到模型的峰值有一定的后移,这与2018 年真实情况更为接近,同时加入温度和湿度后效果最好,这也说明了温度与湿度对手足口病发病的影响;对于广州市数据集,由于在2018 年发病人数骤降,各个模型预测峰值均高于实际值(如图5)。相比较而言,在加入气象因素之后,预测的峰值更接近真实值,只加入平均温度效果最好。

图4 4种模型在济南市2018年的预测结果Fig.4 Prediction results of four models for Jinan in 2018

为验证本文模型的有效性,将本文结果与常用手足口病预测模型的结果进行对比,如表4。表4 中SARIMA 模型和支持向量回归(Support Vector Regression,SVR)模型的预测方式与使用LSTM模型相同。

在济南市数据集上,使用SARIMA 模型结果略好于LSTM模型,但不如LSTM 模型加入气象因素。SARIMA,模型依赖年度周期和前期历史数据,当数据集规律性较好时,如济南市手足口病发病趋势,结果较好。当数据集规律性没那么强时,如广州市手足口病发病趋势,预测结果会比较差。而LSTM模型更具有普遍性。

图5 4种模型在广州市2018年的预测结果对比Fig.5 Prediction results of four models for Guangzhou in 2018

表4 不同模型的第12周预测结果对比Tab.4 Comparison of prediction results of the 12th week of different models

4 结语

本文主要使用LSTM 模型结合温度和湿度预测济南市和广州市手足口病发病趋势,加入气象因素能使预测结果更为准确,这也说明了气象因素对手足口病发病有一定的影响。

本文是第一个应用LSTM 方法并结合气象因素对手足口病发病中期预测的,能够为手足口病防控提供参考依据,同时为今后对手足口病发病趋势预测的研究提供了相关理论基础。但同时本研究依旧有很多待改进的地方,手足口病由不同的肠道病毒引起,这些病毒有不同的流行周期,若对此进行深入分析,纳入模型,或许会有更好的预测效果。此外,传染病的传播途径,易感人群的保护措施等通常会受到所在地区的经济状况等多种社会因素的影响,这些混杂因素也尚未考虑。涉及这些方法的全面分析将有助于了解和监测手足口病的传播,减少感染的危险,并保护儿童免受这种疾病的伤害。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!