当前位置:首页 期刊杂志

混合治愈模型下长度偏差右删失数据的治愈率估计

时间:2024-06-19

施建华

(闽南师范大学数学与统计学院,福建漳州363000)

一、引言

流行队列设计由于简单且节省费用,因而被广泛应用于事件发生时间的相关研究中。在实际问题中,除了由于失去跟踪而导致普遍存在的右删失现象,所观测到的生存时间也经常被左截断,也就是说,在招募时间之前“失效”(医学领域中常见的“失效”事件是死亡事件)的那些研究对象(或个体)是看不到的。因此,这种情形所看到的数据其存活时间长于左截断时间对象的生存时间,是一种偏差数据。在对研究对象的生存分布进行估计时,如果忽视左截断这一问题,将导致重要的估计功效损失。

在流行队列研究中,左截断时间的分布描述了疾病事件的模式与选择偏倚(Selection bias)(Keiding,1991;Wang,1991;Asgharian 等,2006)[1-3],而如果疾病的发生时间服从一个泊松过程,也就是在整个期间疾病的发生率是一个常数,那么左截断时间将服从一个均匀分布 (Wang,1991)。因此,一个个体被观测到的概率是与其寿命长度值成比例的,由这种左截断所造成的选择偏倚即称为长度偏差。本文将使用长度偏差抽样来表示在平稳疾病发生事件下的流行抽样(Prevalent sampling)。

与偏差数据相关的现有许多文献主要集中于研究各种不同情况下分布函数的非参数估计。在左截断下,通过极大化全似然,Vardi(1989)[4]提出了一个非参数极大似然估计量(NPMLE),并证明该估计具有最优的效。但是,NPMLE在实际应用中不是很方便,原因是它没有一个显式的表达式,而且涉及解积分方程,该估计量并没有明确的极限分布(Vardi和Zhang,1992;Asgharian 和 Wolfson,2005)[5,6]。作为一种选择,Luo和 Tsai(2009)[7]提出拟部分似然估计量,它具有显式的表达式,而且相比NPMLE,并没有损失多少的估计效。然而,该估计量涉及估计删失时间分布以及复杂的渐近方差,其估计过程很难处理,这是该方法不利的地方。在长度偏差抽样机制下,Huang和 Qin(2011)[8]对之前的研究做了改进,结合模型中的信息,针对总体分布提出了一个新的非参数估计量。该估计量具有方差显式表达式,而且仅比NPMLE损失很小的效,因而可以很方便地应用到实际问题中。Fan等(2019)[9]对 Huang 和 Qin(2011)的工作做了进一步发展,也是基于长度偏差数据的抽样机制,提出了一个更好的组合信息估计量,这为本文的研究工作提供了一个重要工具。关于长度偏差方面的近期相关研究,可以见Shi等(2015)、Chen等 (2015)、Shi等(2018)、Gao 和 Chan(2019)、Liu等(2019)、Bai等(2019)[10-15]。

此外,在流行队列设计下的事件时间数据研究中,会经常遇到一定比例的被治愈对象,将不会失效或死亡,这些对象可以被看成是有免疫力(Immune)或是长期生存的(Long-term)。例如,关于扁桃体癌患者进行放射治疗(Withers 等,1995)[16],当所有的癌细胞被射线杀死时,患者就被看成被治愈了。为了分析这类数据,人们提出了混合治愈模型。其中,一个经常使用的混合治愈模型是两成分混合治愈模型(Two-component mixture cure model)(Berkson 和Gage,1952)[17],该模型将整个总体看成已治愈对象以及未治愈对象的混合。许多文献通过不同的参数或非参数方法对此类模型进行研究,如Yamaguchi(1992)、Maller 和 Zhou (1992)、Taylor(1995)、Sy和 Taylor(2000)、Peng 和 Dear(2000)、Kannana 等(2010)[18-23]。Maller和 Zhou(1996)在其出版的专著中对两成分混合治愈模型进行了系统讨论。当协变量服从线性测量误差时,Zhao和Zhou(2012)[24]对带有长期生存者(Long-term survivors)的生存数据,通过非混合比例危险模型进行建模分析。Zhang和Zhou(2013)[25]利用带有长期生存者的Cox比例危险模型分析了左截断右删失数据。

关于长度偏差右删失以及带有治愈情形下的复杂生存时间数据,目前还未有文献对其分布函数的非参数估计量进行讨论。在对带有治愈部分的长度偏差右删失数据进行建模时,一个主要的挑战是失效时间与右删失时间存在潜在的相依性,这种相依性会导致信息的删失。另外一个挑战是,假定目标总体的混合模型结构经常会随着所观测到的治愈生存时间数据的变化而发生改变。一般地,这种生存时间数据在观测结束时会发生很多的删失情形,普通的生存模型是不合适对其进行建模分析的,原因在于,相比那些具有免疫力或长期生存的对象而言,不是所有的个体都是易受感染的对象。而且,一个被治愈的对象在观测的实验中总是显示为被删失,但我们并不知道一个被删失的对象是一个被治愈的对象还是一个易受感染而最终会失效的对象。正如Farewell(1986)[26]所指出的,想从一个可疑的群体中区分出删失的个体和被治愈的个体是很困难的一件事。正因为如此,关于治愈率估计的研究带有很大的挑战性,在理论或实际应用上,都有很强的现实研究意义。

二、治愈率模型及条件设定

在本文中,治愈率的混合模型假设所研究总体的生存时间可以分解成如下表达式:

其中,T0<∞表示一个易受感染对象的失效生存时间。η为示性变量,取值为1或0,分别代表该抽样对象被治愈或未被治愈。记P(η=1)=π为真实的被治愈的那部分比例或概率,而且在本文中,我们总是假定0<π<1以保证在模型(1)中,总是有被治愈的那部分个体存在。因此,模型(1)实际上是将所研究的总体分成两个部分。

对于一个流行队列总体,记W*为疾病发生的那个时刻或日历时间(Calendar time),同时假设招募时间ξ与(W*,T*)相互独立。那么,一个个体在这种抽样机制下的招募时刻ξ,仅当T*≥ξ-W*>0发生时,才能被观测到,也才能成为符合我们研究的“合格”样本。记(W,T)为来自流行队列总体的随机向量,也就是观测到的生存时间向量,那么(W,T)的联合分布实际上与(W*,T*)在条件 T*≥ξ-W*>0 下的条件概率分布相等,也就是对于 x,yє[0,∞),有如下的关系式:

在流行队列的实际问题中,所观测到的生存时间T*也由于研究终止或所研究的个体提早退出,而往往带有右删失。我们记A表示从招募开始的剩余删失时间,而A是左截断时间,一般情况下,可以假定C与(A,T*)相互独立。但是,总删失时间变量A+C与观测到的生存时间T*却是相依的,原因是在我们所研究的问题中,它们都是“观测到”的时间变量,都包含共同的左截断时间A。记Y=min(T*,A+C)为总体中从开始跟踪直到失效或删失的生存时间变量,同时令 Δ=I(T*≤A+C)表示删失的示性,它是与“观测到”的生存时间Y相伴的一个数据信息。此外,为了区别起见,对于个体i=1,…,n,我们分别记yi和аi为实际抽样中所观测到的生存时间以及截断时间数据,δi为观测到的个体失效的示性数据,也就是用小写字母表示观测到的数据,以与通常意义上的随机变量符号相区别。通常假设所观测到的数据(аi,yi,,δi)(i=1,…,n)是独立同分布抽样于总体(A,Y,Δ),同时令v~i=yi-аi表示个体被招募后的跟踪时间数据,则这个数据可以看成是个体的剩余观测时间。

令 (ft)和S(t)分别表示研究对象总体的真实生存时间T*的密度函数以及生存分布函数,H(·)为观测到的随机变量Y的分布函数。此外,对任意的一个分布函数 G(·),记为该分布函数支撑的右端点。在流行队列总体中,为了对长度偏差右删失的混合治愈模型进行建模,我们需要引入一些假设条件。

条件1:生存时间随机变量T*与疾病的发生时间W*相互独立。

条件2:疾病的发生时间W*服从均匀分布。

条件3:生存分布S(·)以及删失时间的生存分布S(C·)均是连续的。

条件 4:对任意的 0<b<bH,有Fs(t)=P(Y≤t,δ=1),K(t)=P(A≤t≤Y)。

在条件1和条件2下,我们可以推得生存时间T*具有长度偏差密度函数tf(t)/μ,其中du,而且左截断时间变量A与剩余寿命时间变量V=T-A 具有相同的边际密度,即 fA(t)=fV(t)=的一个重要信息或特征。

三、治愈率估计量

为了方便起见,本文总是假定t≥0。记F0(t)为易受感染个体的失效时间T0的分布函数。由模型(1)可知,P(T*≤t|η=0)=F0(t),P(T*≤t|η=1)=0。

很显然,真实失效时间变量T*的分布函数F(·)可表示为:

严格地讲,这是个拟分布函数(Improper distribution function),它与正常的分布函数是有区别的,原因是在模型(1)中,F(∞)<1。等价地,可以得到S(t)=π+(1-π)S0(t),其中S(t)=1-F(t)和S0(t)=1-F0(t)相对应于分布函数F(·)和F0(·)的生存函数。于是在模型(1)下,所研究总体中,有1-π比例的这部分个体最终会失效(未得到治愈),与之相对应,有π比例的个体被治愈了,可以认为是因为有了免疫力而不再会因这种病失效。然而在实际分析中,我们无法从总体中识别出一个已经被治愈的对象,而只能在足够大的时间点,从相当多数量的研究个体被删失这一现象,推断出被治愈的个体存在。因此,在模型(1)下,自然的看法是至少比例为π的研究对象最终是被删失了。

本文感兴趣的是被治愈部分的估计,也就是估计治愈率π。对于生存时间仅带有右删失的情形,Maller和Zhou(1992)[19]提出用Fn(t)的最大观测值作为1-π的一个简单估计量,这里的Fn(t)是总体分布F(·)的著名的Kaplan-Meier估计量。受此启发,在混合治愈模型中,我们可以类似给出数据带有长度偏差右删失复杂情形下π的非参数估计量。为此,记Tn为观测到的最大失效时间或删失时间变量,我们取π~=Sn(Tn),其中Sn(·)=1-Fn(t)是生存函数Sn(·)的某个非参数估计量。很显然,这也意味着π~<1只有最大的观测值被删失了。

一个自然的问题是,该选哪个估计量Sn(·)来估计S(·)。正如前面所述,在长度偏差右删失抽样下,一种选择是利用Huang和 Qin(2011)[8]提出的非参数组合信息估计量来进行估计。为了介绍这个估计量,需要引入一些记号。定义随机过程为:

那么左截断时间A的生存分布SA(t),在结合了长度偏差以及观测到的剩余生存时间信息下的Kaplan-Meier估计后,可以表示为:

那么,易受感染的总体的生存函数S(t),其非参数估计可以定义为:

对估计量S~n(t),一个不足的地方是被积函数的分母(t)在模拟中不能保证为正值。最近,Fan等(2019)[9]对 Huang 和 Qin(2011)[8]的估计方法做了改进,针对长度偏差右删失数据,提出了一个新的组合信息估计量(Composite Nonparametric Productlimit Estimation,CNPLE),该估计量不同于S~n(t),它克服了S~n(t)的不足,并且估计量的渐近方差也有显示表达式。Fan等(2019)已经证明,这个CNPLE估计量相比Vardi(1989)[4]、Asgharian等(2002)[27]的非参数极大似然估计量,仅损失了一些估计的效。Fan等(2019)同时通过模拟研究指出,CNPLE最大的优势是在大样本情形下,比Huang和Qin(2011)的估计量运行速度更快。因此,本文将在Fan等(2019)等工作的基础上,对混合治愈模型的治愈率估计进行研究。

首先再定义一个随机过程:

那么,由Fan等(2019)提出的生存函数S(·)的

CNPLE可以表示如下:

于是,在混合治愈模型中,我们可以很自然地给出长度偏差右删失抽样机制下π的非参数估计量,即

四、估计量的大样本性质及其证明

在一定的条件下,我们能够证明估计量πˆ是真值治愈率π的相合估计,同时具有渐近正态性。

首先给出两个引理,这在证明我们的主要结论中是个重要的工具。

引理1(Fan等,019)在条件1至条件4下,在区间0≤t≤b<bH上一致地有:

其余项的收敛速度为:

引理2如果条件1至4成立,那么对b<bH,有:

证明:由Fan等(2019)中的引理 1讨论以及经验过程的重对数率得到,当b<bH,有:

于是引理2得证。

下面,我们给出估计量πˆ的两个大样本性质以及它们的证明过程。

定理1在条件1至条件4下,同时假设bH<bF0以及 S(t)在 bFA+C<∞ 连续,那么:

证明:由引理1可以得到:

其中,余项的收敛速度为:

下面分两类讨论。

如果 bFA+C<∞,由于 S(·)在 bFA+C点连续,而且依概率地Tn→bFA+C,那么Sˆn(Tn)=Sn(Tn)+op(1)→Sn(bFA+C)。

如果bFA+C=∞,Tn→∞,于是Sˆn(Tn)→pπ=Sn(bFA+C)。

因为bF0=sup t:F(t)<{}p ,于是有:

S(bFA+C)=π⇔S0(bFA+C)=0⇔bF0≤bFA+C

证毕。

为此,假设序列kn=kn(є)满足:

其中,є>0是个事先给定的常数。那么,当n→∞时,kn→bF0。

综上可知定理2成立。

五、结束语

本文在Fan等(2019)最新工作的基础上,提出了混合治愈模型的治愈率估计,证明了这个估计量的相合性以及渐近正态性,从而为研究带有治愈情形的长度偏差右删失复杂数据提供了基础,拓展了这类医学数据的理论研究。同时,上述结论的条件具有很强的实际意义,如(2)式的条件,意味着总删失时间分布的尾部必须足够厚于失效时间分布。在实际情况中,这类情形很容易出现。例如,总删失时间分布、失效时间分布分别为指数分布FA+C(t)=1-exp{-λ1t}和F(0t)=1-exp{-λ2t}时,那么当且仅当参数λ1<λ2时,作为条件的式(2)成立。因此,本文的工作也具有很强的现实意义。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!