当前位置:首页 期刊杂志

基于网络模型的癌症协同驱动通路挖掘方法

时间:2024-05-04

梁雨欣 周忠薇 左颖 黄旭义 张赏 西北农林科技大学信息工程学院

1.前言*

当今,癌症被认为是致死亡率最高的人类疾病之一,而如何治愈癌症又是人类无法攻克的难题。研究表明,癌症与基因突变有关。随着人类基因组计划测序数据日益完善,人们对癌症认识的逐步加深。如何从大量的基因数据中找到促进癌症发展的驱动基因,是当前的研究热点。

高通量测序技术被广阔的应用于解决各种生物问题以及疾病领域。计算生物学和网络医学选择和癌症密切相关的体细胞突变进行研究,对于深入理解癌症诊断、治疗具有重要医学价值。

癌症研究领域的重点逐渐从关注单个突变基因向突变基因集合转变。目前计算生物学和系统生物学以体细胞突变数据为主线来研究导致癌症发生的驱动通路。2012年,Vandin团队在《Genome Research》上发表检测驱动通路文章,根据基因表达谱上突变基因互斥性和高覆盖性等特点,建立最大覆盖互斥子矩阵,利用马尔科夫链算法检测具有互斥性、高覆盖的基因组合。利用数据本身固有属性解决突变异构问题。此后,Zhang等人在《生物信息学》上发表检测驱动通路文章,提出了癌症发生与体细胞突变、基因表达和表观遗传之间密切相关,并使用体细胞突变和基因表达数据通过遗传算法来检测具有最大覆盖的互斥子阵列。

目前这些研究主要集中于利用基因谱中突变基因互斥性理论,通过线性规划算法、遗传算法或网络聚类方法对体细胞突变数据进行研究找出导致癌症发生的驱动通路。这为本文利用基因网络研究癌症发病机理提供了理论参考和技术支撑。

2 相关知识

驱动通路具有三个方面的特征:第一,驱动通路中每个基因都具有更频繁的突变;第二,已发现的信号通路和网络知识分析显示驱动通路中每个基因都可能参与相同的生物过程;第三,从基因网络层面上的分析表明驱动通路中基因在统计普遍性和基因突变谱上具有较强的相互互斥性。

突变基因分为功能性驱动突变和随机突变。功能性驱动突变对癌症发生起决定性作用,而随机突变不会导致癌症发生、发展和恶化。由于驱动基因同时靶标多个细胞,不同癌症病人是由不同的基因突变紊乱其机体功能。这些突变异构现象表明,仅考虑突变率判断基因是否为驱动突变是不科学的。

3 驱动通路挖掘方法

3.1 生成关系网络

首先过滤掉突变率较低的基因,本文中将MAF(最小等位基因频率,指在人群中的不常见的等位基因发生频率)设为2.5%,即过滤掉MAF小于2.5%的基因,这类基因常为随机突变。然后,计算每对基因间的互斥度和权重函数值,若一对基因间的互斥度大于等于给定阈值λ,且权重函数值大于等于给定阈值γ,则认为这对基因满足互斥关系,并建立网络中对应的边,构成基因网络。

将癌症病人的基因描述为一个m×n的矩阵A,m表示病人个数,n表示基因个数,=1则表示病人i的基因j发生突变。设基因g的覆盖函数,表示基因g突变的病人的集合,对于矩阵A的m×k子阵列M,设其覆盖函数表示k个基因中发生突变的病人集合,对于任意一对基因则M中的基因是互斥的。

然而在实际的计算中,可能存在一个基因覆盖包含于另一个基因覆盖的情况。由此,我们定义子阵列M的覆盖重叠函数而矩阵A中任一基因对的覆盖重叠函数对于子阵列M,考虑到覆盖度CD(M)和覆盖重叠的影响,其权重函数。同理,对于矩阵A,定义其非重叠比重函数在构建突变基因网络时,使用上述非重叠比重函数可以避免部分基因覆盖包含的情况,增加计算精确度。

对于基因突变矩阵,分别计算出任一对基因间的互斥度和非重叠比重值,若且,则连接节点以此建立基因相互作用网络。图中的节点代表基因,而连边代表这对基因互斥。

3.2 驱动通路挖掘

在上一步构建的网络图中,检测其中满足高覆盖的最大完全子图,该最大完全子图就是一个突变驱动通路。

挖掘驱动通路子图的步骤为:找到具有最大覆盖且相互连接的3个基因作为起始基因集合,然后查找到起始基因集合外的某一节点,该节点与集合中每个节点相连且具有最大覆盖度,将其加入到集合中,直到不存在与集合中所有节点相连的基因为止。另外,如果删除某个集合中的节点,使集合的权重函数值增加,则在集合中删除该节点。

4 实验过程与结果分析

本算法在构建突变基因网络时,利用基因互斥性描述基因间关系,降低了时间复杂度。在检测最大完全子图时,优先考虑互斥度和权重函数值高的节点进入完全子图的情况,提高了检测驱动通路的准确性。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!