生命科学研究中的不确定性及数据驱动的算法

时间：2024-09-03

吴迪美国梅奥医学中心生化与分子生物学系研究专员，博士

生命科学研究中的不确定性可以让生物学研究涌现新发现；源源不断产生的数据可以驱动算法的产生，揭秘或预测生物学研究中的未知空间。

生命科学在技术研究上的突飞猛进使许多生物学问题有了通用的解决方案，也使人们认识到生命科学基础理论的巨大未知空间。如何从复杂多变的生物现象中整理出若干基本的原理？生命科学能否像物理学那样成为精密科学？实际上，生命中存在多种不确定性和多样性。不确定性的存在增加了生命科学研究的难度，但是它也可以转变为强大的工具，让生物学研究不断涌现新发现。同时，源源不断产生的数据给生物学研究带来了巨大的未知空间。那么，这种空间背后的奥秘如何揭晓就需要引入对应的算法。

转变不确定性

计算结构生物学研究如何通过肽链的氨基酸序列推断出蛋白质的空间构象，从而设计出有新功能的蛋白质。蛋白质的空间构象是由其原子间的相互作用产生的，而原子间的相互作用可以通过物理学计算。但是，当蛋白质中的原子数量较多时，通过精确计算去预测和设计蛋白质的功能将会极为困难。倘若通过人工分子进化模拟自然进化过程，有可能在合理的时间内得到有目标功能的突变蛋白质。这种方法是在天然蛋白质的编码基因中引入随机突变，每种突变对蛋白质功能的影响是不确定的，其中个别蛋白质突变体可能会产生类似于目标功能的突变蛋白质。之后，通过功能富集得到这类蛋白质的突变体，并在此基础上进行新一轮蛋白质的随机突变和筛选。如此反复迭代，使突变蛋白质的功能逐渐接近目标功能的蛋白质。绿色荧光蛋白质的进化为其中一个典型的例子。

蛋白质突变的引入都是随机的，没有任何预设目标。一旦有了预设目标，就会遗漏那些可能更加重要的突变。这种方法论实际上是一种无序的穷举法，利用随机性在搜索空间中进行均匀分布的取样尝试。此外，这种方法还要结合一种反馈机制，即对每一次尝试的结果进行打分。例如，人工分子的进化是对突变蛋白质的功能打分，得高分者胜出，得低分者则被淘汰——马太效应。

引入数据驱动的算法

面对复杂的多因素系统，利用算法有时能快速取得成功。其中，人工神经网络和深度学习的应用已经说明，由数据驱动的算法确实可以解决很多实际问题。美国博德研究所（Broad Institute）的癌症依赖性基因图谱计划（The cancer dependency map）假设，每种癌细胞都有自己的弱点，那就是它的生长可能会比正常细胞更加依赖于某一类基因的表达，所以找到这一类基因并且抑制它们就有可能特异性地杀伤这种癌细胞。目前，这一计划的初步结果已经发布。从这些结果来看，不同癌细胞确实有着不同的基因依赖性，某些依赖性可能与癌细胞已有的突变背景有关，但是还未能总结出规律。这似乎说明癌症的分子机制确实难以用同一个模型进行概括。因此，尽可能多地搜集不同癌细胞的基因依赖性特征才可能发展出针对不同肿瘤的个性化治疗方案。这项计划揭示了癌细胞的异质性和复杂性，肯定了数据驱动研究的优势。