时间:2024-05-04
须成杰 覃开舟
(复旦大学附属妇产科医院 上海 200090)
新型冠状病毒是2019年末所发现的一种具有很强传染性的冠状病毒毒株,世界卫生组织将由此种新型的冠状病毒所引发的肺炎命名为COVID-19[1]。人感染后常见症状包括发热、乏力、干咳等[2],症状严重的患者可能会产生严重的急性呼吸窘迫综合征甚至死亡[3]。新型冠状病毒传染性很强,导致其在全球流行。对新冠肺炎的传播规律进行理论分析和定量研究成为一项重要的课题,通过合理地预测疫情发展趋势,能够为疫情防控提供理论指导。
通过数学建模方法进行传染病传播的研究是公卫疾病干预的有效方法。Gong等[4]通过建立系统动力学模型,研究了及早发现并采取隔离治疗的措施对SARS疾病传播的重要影响。此后研究人员在SEIR模型的基础之上又陆续提出了SIS模型、SEIR模型、SEIRS模型等传染病仓室模型,推动了传染病动力学研究的发展[5]。
本次新型冠状病毒的传播符合一般传染病的传播规律,因此本文采用SEIR模型来研究新型冠状病毒肺炎疫情。基于每天公开发布的全国及省市疫情确诊数据,模拟疫情传播过程,分析疫情传播规律。根据模型分析结果可以合理地预测疫情的发展趋势、每日确诊人数、疫情拐点,从而为疫情防控工作提供有效的参考信息,具有实际应用价值。
SEIR模型是一个经典的传染病动力学模型,常用于模拟某一疫区的传染病传播过程,能够有效合理地预测疫情传播和扩散趋势。SEIR模型中,S代表易感者,E表示潜伏者,I表示感染者,R表示恢复者[6],总人数N=S+E+I+R。染病人群为传染源,通过一定概率把传染病传给易感人群,自己也有一定的概率被治愈并免疫或死亡。易感人群一旦感染即成为新的传染源。
SEIR模型的基本假设包括[7]:
(1) 不考虑疫区人口的出生和死亡,即假设总人口为一个常数。
(2) 治愈后的个体对病毒具有免疫能力,不会再次感染。
(3) 人群分为易感人群、感染人群和恢复人群,某一时刻t这三类人群的人数分别记作s(t)、i(t)、r(t)。
符号定义如表1所示。
表1 符号定义
其中:
有以下推断:
(1) 一个病人与易感者接触后必然具有一定的感染力。假定t时刻单位时间内,一个病人能传染的易感者数目与环境内易感者总数成正比,比例系数记为β,代表感染系数。
(2)t时刻,单位时间内从染病者中移出的人数与病人数量成正比,比例系数记为γ,代表恢复系数[8]。
以上推断可写为式(1)-式(4)。
(1)
(2)
(3)
(4)
对于SEIR模型中的未知参数,可利用最小二乘法这一经典的优化算法对参数进行估计。最小二乘法的原理是选择使得实际值与模型结果值之间误差平方和最小的参数作为参数最优解。
针对SEIR模型,假设未知参数θ=(β,γ),模型解得确诊人数预测值为{yi(θ),1≤i≤N},实际确诊人数为{Ii,1≤i≤N},则残差平方和表示为:
(5)
式中:V为实际确诊人数减去确诊人数的预测值矩阵。
为求残差平方和SSE(θ)的最小值,对式(4)关于θ求偏导,并令其等于0,得:
(6)
式(5)的解即为最小二乘法得到的最优参数。
自2020年1月22日起丁香园每天公开发布新型冠状病毒肺炎疫情数据,基于累计近3个月的疫情数据,自4月25日起每天使用SEIR模型模拟全国及几个重点省市(湖北省)的疫情传播过程,并预测之后每天的确诊人数变化趋势和疫情拐点(即现存确诊人数的最大值和最高峰所在的日期)。本文通过Python编程来构建模型并估计参数。
进行SEIR建模和预测时,首先需要确定模型的几个初始值,以全国疫情预测模型为例进行讨论。
感染人群初始值I0即1月22日的感染人数为548。待估参数包括易感人群初始值S0、感染系数β和恢复系数γ。对于S0,考虑到本次疫情中对确诊和疑似人群实行隔离、武汉市自1月23号起开始封城、全国多地采取了严格的防控措施等实际情况,可知感染者能接触的人数是有限的,不能使用全国总人口数作为易感人群初始值S0,需要通过数学方法估计,在SEIR模型中易感人群初始值S0是通过地区总人口数N、潜伏者数初始值E0、感染人群初始值I0、死亡人群初始值D0等参数计算得到,而地区总人口数N通过统计年鉴可获取,潜伏者数初始值E0、死亡人群初始值D0等参数初始值假设为0,感染人群初始值I0假设为1,后续通过最小二乘法基于拟合误差最小化原则不断迭代更新,得到最终数值。
采用最小二乘法对感染系数β、从暴露人群到确诊感染者的比率k、恢复系数γ、死亡率μ进行估计。
将以上估计得到的参数代入SEIR模型公式中计算,可预测出每天的现存确诊人数和疫情拐点,并根据预测数据绘制确诊人数变化曲线。
根据疫情期间公开数据的变化情况以及对每天建模预测的结果进一步分析总结,发现可从2个方向对初始参数做进一步的调整,从而优化模型。
(1) 过滤原始数据集。在疫情发生期间,自2月13日起湖北省把临床诊断病例数纳入确诊病例数进行公布。诊断分类的变化引起了湖北省及全国确诊病例数的激增,由于前后统计口径不一致,数据差异较大,因此后续对全国及湖北省数据进行建模时只选取2月13日之后公布的确诊数据。
(2) 优化感染人群初始值I0。原本对全国疫情建模分析使用1月22日的确诊人数作为感染人群初始值I0,而根据上述说明,对全国和湖北省进行疫情分析时应只选取2月13日之后的数据,因此需要重新估计I0的值。以2月17日的全国疫情预测模型为例,当n=1.3即I0≈378时,通过计算得到预测值与实际值误差最小,全国疫情分析模型有最优解。
(3) 优化恢复系数γ。随着疫情数据的不断积累,需要重新估计恢复系数γ,使模型拟合程度更高。根据模型预测结果可以看到γ值对于拐点后的曲线变化影响较大,γ值越大,拐点后的曲线越陡峭。利用最小二乘法基于拟合误差最小化原则拟合恢复系数值。
通过以上模型优化方法,基于每日更新的确诊数据进行参数估计,从而得到每日疫情模型预测结果并绘制疫情发展曲线如图1所示。
(a) 全国确诊人数预测曲线
(b) 湖北省确诊人数预测曲线图1 确诊人数预测曲线(截止于2020年4月24日)
2020年3月11日到2020年3月20日每日的模型预测结果数据如表2-表3所示。为评价模型预测效果,记预测值y与实际值I之间的相对误差为δ,计算公式如下:
(7)
表2 全国确诊人数预测结果表
续表2
表3 湖北省确诊人数预测结果表
从表2、表3可看出,模型对于全国、湖北省的确诊人数相对误差率分别不超过2.04%、1.25%,说明模型能够根据当前累积的确诊人数有效地预测之后的确诊人数。从图1可看出,模型拟合程度较高,曲线能够有效地反映和预测疫情的发展趋势。
本文使用传染病动力学经典模型SEIR模型对2020年1月22日至4月24日的全国及几个重点省市的新型冠状病毒肺炎疫情数据进行建模分析,模拟新冠肺炎的传播过程和发展趋势,应用模型结果预测疫情期间每天的确诊人数和疫情拐点。在建模过程中,首先基于实际情况和最小二乘法优化算法估计几个重要参数,即易感人群初始值、感染系数β和恢复系数γ等,模型拟合程度较高。本文的创新之处在于,从疫情期间发生的实际状况出发,进一步优化模型,通过过滤原始数据集、优化感染人群初始值I0以及优化恢复系数γ等方法进一步提高了模型拟合程度和模型预测准确率。
实验结果证明,本文构建的SEIR疫情预测模型能够有效地反映疫情变化趋势、合理地预测疫情确诊人数和疫情拐点,对于描述传染病传播过程、预测疫情发展、疫情防控等方面具有一定的实际应用价值。然而新冠肺炎疫情的传播过程十分复杂,影响疫情传播的部分因素是SEIR模型无法刻画或预测的,比如医疗资源的变化、政府的管控措施、境外输入的影响等,因此模型难以准确地预测疫情长期变化,比较适用于短期疫情预测。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!