当前位置:首页 期刊杂志

一种基于Logistic回归分析的药物筛选方法

时间:2024-05-18

孙立炜 王梦仙 黄泽

摘  要:由病毒引起的突发性传染病是威胁人类健康的大敌。在病毒性传染病初期,从各种药物中,筛选出能够抑制病毒的有效药物,能够为疫情防控与治疗赢得宝贵时间。药物筛选的方法有很多,该文提出一种基于Logistic回归分析的药物筛选方法。对药物筛选问题进行建模,应用Logistic回归分析方法,按照参数估计和显著性检验2个过程进行求解,并进行案例应用分析。

关键词:Logistic回归  数据挖掘  药物筛选  建模

中图分类号:G71           文献标识码:A 文章编号:1672-3791(2020)08(b)-0214-03

A Drug Screening Method Based on Logistic Regression Analysis

SUN Liwei  WANG Mengxian  HUANG Ze

(Xiamen Nanyang University, Xiamen, Fujian Province, 361102 China)

Abstract: Sudden infectious diseases caused by viruses are a major enemy threatening human health. In the early stage of viral infectious diseases, screening out effective drugs that can suppress viruses from various drugs can win valuable time for epidemic prevention and treatment. There are many methods for drug screening. This paper proposes a drug screening method based on Logistic regression analysis. Modeling the drug screening problem, applying Logistic regression analysis method, solving according to the two processes of parameter estimation and significance test, and conducting case application analysis.

Key Words: Logistic regression; Data mining; Drug screening; Modeling

由病毒引起的突发性传染病是威胁人类健康的大敌。目前,人类对病毒的认识远远不够,也没有类似于抗生素那样的广谱抗病毒药物。因此,在病毒性传染病初期,从各种药物中,筛选出能够抑制病毒的有效药物,能够为疫情防控与治疗赢得宝贵时间。药物筛选的方法有很多,基于稳定而有效的数理统计方法就是其中之一。以Logistic回归模型为工具调整或控制混杂因素的方法,是医学研究者最熟悉也是使用最普遍的方法[1-4],可以应用于药物筛选。

1  药物筛选问题的建模

设p为病人服药后好转的概率。A是所有治疗方案的药物集合,共有k种药物,分别是a0,a1,…,ak。病人不可能只服用一种药物,需要确定哪一种药物起到重要作用。令变量xi表示该病人是否服用了第i种药物,i=1,2,…,k。xi是一个2值化变量,xi=0表示病人未用药物ai,xi=1表示病人服用药物ai。利用logit函数建立回归方程(式1)。误差项ε服从正态分布,且每个样本的误差项相互独立。

2  模型的求解

模型的求解分为两个过程,分别是参数估计和显著性检验。

2.1 参数估计

首先建立似然函数L,并求对数,得到:

其中,n是样本数量。然后,分别对β0,β1,…,βk求偏导数并令:

即可解出β0,β1,…,βk。

2.2 显著性检验

对回归方程的显著性检验包括线性关系检验和回归参数检验。

2.2.1 线性关系的显著性检验

线性关系的显著性检验的目的,是检验全体自变量与ln(p/1-p)的线性关系是否显著。步骤具体如下。

(1)定义截距模型,用L0表示截距模型的似然值。

(2)对于所要检验的模型,其包含有若干自变量,其似然值为L。

(3)构造对数似然比的统计量G2,G2=2ln(L/L0)。G2近似服从自由度为k的χ2分布。

(4)提出假设。H0:β1,…,βk均为0;H1:β1,…,βk至少有一个不为0。

(5)给出显著性水平α。如果G2≤χα2(k),则接受零假设,认为(1)式中所有回归系数为0。如果G2>χα2(k),则拒绝零假设,认为(1)式中回归系数不全为0,可以进行下一阶段的回归参数显著性检验。

2.2.2 回归参数显著性检验

回归参数显著性检验的目的,是逐个检验模型中的各自变量是否与ln(p/1-p)有显著的线性关系,删除线性关系不显著的变量,剩余的变量揭示出起到主要作用的药物。步骤具体如下。

(1)提出假设。对参数βi,H0:βi=0;H1:βi≠0。

(2)計算Wald统计量。Wald=(βi/Sβi)2,其中βi是回归参数,Sβi是βi的标准误差。Wald统计量服从自由度为1的分布。

(3)做出统计决策。计算各个自变量的Wald观测值和对应的概率p值,并设定显著性水平α。如果对于某自变量,p<α,则拒绝零假设,认为该自变量与ln(p/1-p)有显著的线性关系。如果p≥α,则接受零假设,认为该自变量与ln(p/1-p)没有显著的线性关系。逐个删除线性关系不显著的xi。每删除一个,就返回开始的参数估计过程重新计算,直到所有的xi均与ln(p/1-p)有显著的线性关系为止。剩余的自变量xi所对应的药物ai就是有效药物。

3  案例分析

现有用藥数据集D,包含了150例用药案例。其中有50例在疗程内同时使用药物A、B,好转40例。有50例在疗程内同时使用B、C,好转25例。有50例在疗程内使用A、C,好转35例。部分数据如表1所示。其中,id表示案例编号,A表示是否使用A药物(1为是,0为否),B表示是否使用B药物,C表示是否使用C药物,result表示病人是否好转(1为是,0为否)。

采用Logistic回归分析算法,建立的回归方程为:

其中,p为病人好转概率,x1,x2,x3分别表示该病人是否服用了药物A、B、C。

计算软件采用SPSS clementine 12.0,设定的显著性水平α=0.005。计算过程如表2、表3和表4所示。其中,Β表示回归参数值,得分表示似然比统计评分,S.E.表示回归参数的标准误差,Wald表示Wald检验统计量的观测值,df表示自由度,显著性表示Wald检验统计量对应的概率p值。

从这3张表中可以看出,计算过程共有3个步骤(步骤0,1,2)。表2和表3说明了步骤0的输出情况,表4说明了步骤1和步骤2的输出情况。每个步骤都有参数估计和显著性检验2个过程。步骤0,参数估计β0=0.693。由于在显著性检验中,β2的显著性为0.540,β3的显著性为0.014,均大于显著性水平α,应逐个删除。步骤1,删除x3,参数估计β0=1.386,β1=-1.386,β2=-0.539。而在显著性检验中,β2的显著性为0.251>α,还应删除x2。步骤2,删除x2,参数估计β0=1.099, β1=-1.099。β1的显著性为0.003<α,予以保留。最后,考虑到clementine的自变量编码规则与表1的定义相反,得到回归方程为:

这个回归方程说明,自变量x1对应的药物A是起到重要作用的有效药物。

在病毒性传染病初期,筛选出能够抑制病毒的有效药物,能够为疫情防控与治疗赢得宝贵时间。对药物筛选问题进行建模,应用Logistic回归分析方法进行求解,并做了案例应用分析。

参考文献

[1] 张伟东,王幸丽,杨红,等.重症哮喘患儿社交焦虑现状调查及logistics回归分析[J].中国健康心理学杂志,2020(3):363-367.

[2] 于健,徐刚,孙宏,等.后外侧支撑固定治疗胫骨平台后外侧髁骨折预后的多元Logistics回归分析[J].中国组织工程研究,2019(32):5138-5145.

[3] Gong X,Cui J,Jiang Z,et al.Risk factors for pedicled flap necrosis in hand soft tissue reconstruction: a multivariate Logistic regression analysis[J].ANZ Journal of Surgery,2018,88(3):E 127-E131.

[4] 于媛媛.logistic回归模型在流行病学病因分析中的偏性及其改进策略研究[D].山东大学,2018.

[5] 贾雨晴.多分类logistics回归排序集抽样方法及其应用[D].华中师范大学,2017.

[6] Li Yuan,Chen Yumeng,Zhou Chunfen,et dl. Analyzing the Impact of Practice Environment on Nurse Burnout Using Conventional and Multilevel Logistic Regression Models[J].SAGE Publicatio-ns,2020,68(7):325-336.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!