当前位置:首页 期刊杂志

因式分解法在分子系统发育分析中的应用

时间:2024-12-28

李可群

(同济大学 化学科学与工程学院,上海 200092)

生命之树是指将所有生物种类联系在一起并蕴含海量信息的系统进化树,它可用来阐明生命的起源、生物进化样式、生物各大门类演化和亲缘关系,以及生物多样性的存在和变化的动态规律.构建生命之树和利用其中的信息资源是生命科学面临的又一挑战[1].研究生物进化的理想途径是利用物种的化石证据,但是自然界中化石存留下来的比较少,很多进化的关键环节都没有化石存留.因此大多数生物是通过比较形态学和比较生理学构建生物进化史的框架,然而形态和生理状态的进化相当复杂,不同学者构建的进化系统树在细节上有所差别,得出的物种进化关系难以统一[2].近年来,随着分子生物学研究的不断深入,大大改变了这种局面.不过,目前分子系统发育分析在计算物种分歧时间时,大多基于分子进化速率恒定的“分子钟”假说,但大多数生物分子在长时间尺度和不同谱系的进化速率并不恒定,从而计算得到的结果与化石年龄往往存在较大的偏差.如原口动物和后口动物分歧时间化石给出的年代在5.55~5.60亿年前,而近年来快速发展的生物分子钟方法推算结果大多介于12亿~8.51亿年前,仅有极少数给出小于6亿年前的结果,即几乎所有分子钟研究结果显示两者分异早于寒武纪生物大爆发至少1亿年[3].为此,本文作者提出了不基于分子进化速率恒定假说的分子绝对进化速率计算公式[4]、多重突变校正公式[5]和分子系统发育分析中的物种选择规则[6]等.本文将继续探讨分子系统发育分析中物种选择规则的相关问题.

1 问题的提出

若两个同源序列分子进行比较,其序列差异率p可表达为[4]

(1)

(2)

文献[4]指出当两个遗传距离kAt和kBt存在一定差异但相差不十分悬殊时,式(2)得到的分子绝对进化速率kA和kB分别是其各自真实值(即式(1)中对应值)的2倍.替代公式的使用会带来误差,当一个物种类群对,即两个物种类群的物种序列分子彼此两两相互比较,其总误差可表示为[6]

(3)

(4)

根据高等数学中多元函数极值条件,将式(4)中s分别对xA(i)、xB(j)求一阶偏导数并令它们分别为零,两式展开整理后有

(5)

(6)

由式(5)和式(6)可以看出,两式较为复杂难以直接求解.而三物种类群和四物种类群分别由3个和6个物种类群对组成,问题更为复杂.幸运地是,文献[6]在计算出的物种分歧时间与化石年龄十分接近的成功体系中,发现参与计算的同一物种类群中的物种序列分子均满足以下关系式

(7)

式中:e-x称之为其物种序列分子的平均未突变概率,式中c值分别取1、2、3和4,m0为物种数.依据该文献的方法,式(4)可转化为

(8)

式中:e-xA、e-xB分别为物种类群A和物种类群B中物种序列分子的平均未突变概率.不难看出,式(8)取最小值,也就是两物种类群体系的物种选择规则为

e-xA=e-xB

(9)

即两物种类群自它们最近共同祖先而来的物种序列分子平均未突变概率相等.三物种类群和四物种类群体系也可做类似处理,具体过程参见文献[6].

可以看出,式(7)的引入极大地简化了求解过程,为了帮助读者更好地理解和使用该公式,本文将从数学上给出式(7)的来源并讨论其在分子系统发育分析应用中的普遍性.

2 因式分解法求解方程

首先讨论式(5).为了方例式(5)求解,本文将使用较为一种巧妙的方法.即令e-xA(i)=rie-xA0,其中e-xA0为与物种类群A的具体物种序列分子,即与i无关的变量,那么式(5)将转化为关于e-xA0的一元三次方程,即

(10)

(11)

式(11)同样较难直接求解.可通过使其第1项分别与第2项、第3项和第4项提出因式,剩余的两项也提出因式,再人为地让提出的两因式相等,即通过将式(11)进行因式分解的方法求解,来确定其物种选择规则.

2.1 式(11)中第1项与第2项、第3项提取因式

式(11)可转化为

(12)

若要式(12)有解,需使2个中括号内式子相等即

(13)

式(13)可变换为

(14)

另若式(12)中括号内因式为其解,还需令其等于零,有

(15)

而式(15)可转换为

(16)

另由式(14)和式(16)有

(17)

式(16)和式(17)就是式(11)第1项和第2项提取因式时得到的解,即此情形时使式(5)取最小值时需满足的条件.式(11)中第1项和第3项提取因式时得到的解与上述结果相同.

2.2 式(11)中第1项与第4项提取因式

此时式(11)可转换为

(18)

(19)

式(19)即为

(20)

同样将式(18)提取的因式令其为零后,有

(21)

变换后有

(22)

由式(22)可知,式(20)右边项等于1,即有

(23)

式(22)和式(23)即为式(11)第1项和第4项提取因式时得到的解,即此情形时的物种选择规则.需说明的是,式(18)提取因式后剩余的表达式较为复杂,而物种选择规则是选取能计算得到满意物种分歧时间的物种组成,而不是穷尽其解,故忽略从此种情形中求解.

2.3 结果讨论

表1 使用因式分解法得到的两物种类群体系解

因式(4)取最小值时要同时满足式(5)和式(6),即需取它们在表1中解的交集.不难看出,当表1中同时选择式(5)通过第1、2项以及式(6)通过第1、4项得到的解时,会发现它们之间矛盾,也即此时式(4)不存在解,反过来也一样.表1中同时选择式(5)和式(6)的第1、2项得到的结果是否为式(4) 的解需实际计算来验证,本文将重点讨论同时选择使用式(5)和式(6)的第1、4项得到解的情形.

2.3.1 式(7)的数学来源

由表1中式(5)和式(6)通过第1、4项得到的解进行变换有

(24)

(25)

(26)

(27)

可以看出式(7)是式(24)至式(27)的一个解,且有式(9)成立,这也就是为什么文献[6]能从计算出满意物种分歧时间成功体系的数据中总结出式(7)的原因.

2.3.2 式(7)的普遍性

如果把同一物种类群中各序列分子自它们的祖先分子而来的未突变概率表达为e-xk=e-xe-Δxk(k=1,2,…,m0),其中e-x为各物种序列分子的平均未突变概率,而Δxk=xk-x.由于同一物种类群中各物种序列分子绝对进化速率大多差异并不很大,因此物种选择时不难选择出一组上述物种序列分子使它们的Δxk数值均较小,由泰勒级数展开式并取前两项,因e-x一般不为零,故有

e-xk=e-x(1-Δxk)

(28)

(29)

由于前面同样的原因,当式(7)中c为2、3和4时,可以通过适当的物种选择使同一物种类群中各物种序列分子的cΔxk数值较小,从而使其e-cΔxk的泰勒级数展开式仅取其前两项(参见文献[6]中的实际计算体系),显然此时式(29)成立.有

(30)

即此情形时式(7)也成立.实际计算表明,物种选择时在同一物种类群中找到一组物种序列分子来满足所有c取值时的式(7)事实上较为容易,即式(7)具有普遍性.因此不难理解在我们计算出满意物种分歧时间的成功体系中,可以发现其各物种类群序列分子均满足式(7).式(7)在分子系统发育分析中有着重要的作用,它在处理三物种类群和四物种类群体系物种选择规则时能将计算过程大大简化.

3 总结

通过使用因式分解的方法成功地给出了两物种类群体系物种选择规则的解,并从数学上证明了从计算出准确物种分歧时间成功体系数据中总结出的式(7)为其中一个解.式(7)的引入,大大简化了三物种类群体系和四物种类群体系物种选择规则的计算过程,在分子系统发育分析中有着重要作用.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!