李扬利用统计学整合人类基因组大数据

时间：2024-04-24

陈晰

重构人类基因进化历史，对于研究并预防遗传疾病具有重要意义。哈佛大学来自中国的留学生李扬首创了CLIME统计算法，依托大数据时代巨大的公共基因组数据，通过分析不同物种的DNA序列之间的关系，快速准确重构了2万人的基因进化历史，为推动生物医学研究发展做出巨大贡献。

李扬于1988年出生于北京。2011年赴美留学，师从华人著名统计学家刘军教授，2016获哈佛大学统计学博士学位。他在统计学中主要的研究方向是通过统计建模，利用大规模的基因组学数据预测人类基因的功能，从而推动生物医学的研究。他的论文刊登在世界著名学术刊物如Cell， PLoS Computational Biology， Journal of the American Statistical Association， Nature Methods， Proceeding of National Academy of Science等，同时还为全球714个实验室提供了6，000余次在线分析。其中，10余家实验室通过使用CLIME算法应用得到了新的科学成果。

快速高效完成DNA测序

人类基因组中大概有2万个基因，然而目前科学界只对其中不到50%的基因有所了解，另外50%的基因并不清楚他们在人体中起到什么作用。但就是这些未知基因的功能，却左右着人类的遗传疾病。

李扬告诉记者，根据达尔文的进化论，不同的高级物种可能是从少数的几个低级物种进化而来，通过分析不同物种的DNA序列之间的关系，就可以重构每个人类基因的进化历史。在大数据时代，巨大的公共基因组数据量给研究者提供了一个良好的契机，CLIME算法正是基于这种思想，并基于严格的数学统计模型而发明的。

CLIME的统计模型是根据统计学中著名的隐马尔科夫模型（Hidden Markov Model）对人类基因在进化过程中的产生和消失进行数学建模。通过这个模型，CLIME分析出每个人类基因的进化历史，同时进一步使用贝叶斯混合模型（Bayesian mixture model），并使用马尔科夫链采样算法（Markov chain Monte Carlo）把进化模型相似的基因进行聚类。因为D N A测序数据量巨大，统计分析算法往往需要很长的计算时间。李扬在CLIME中提出了一个动态规划（Dynamic Programming）算法，使CLIME可以在短时间内高效完成计算。

10余实验室通过CLIME算法得出新成果

在实际应用中，CLIME算法使用了138个物种（包含动物、植物、单核生物等）的基因序列数据，重构了2万个人类基因的进化历史，把进化历史相似的基因进行聚类。目前，哈佛大学已经建立了CLIME 算法分析网站www.gene-clime. org，该网站在全球范围内被研究者广泛使用，已经为全球714个实验室提供了6，000余次在线分析，在线提供的人类基因组进化模型的分析结果已经被下载超过51万余次。此外，全球有10余家实验室通过使用CLIME算法，并应用于他们的数据上得到了新的科学成果。

芬兰科学院院士、赫尔辛基大学Anu Wartiovaara教授近期在Cell Metabolism上发表论文，详细研究了细胞代谢中几个重要基因的作用。在此文中，Wartiovaara教授实验室的研究人员使用了CLIME算法，对几个重要的细胞代谢基因进行分析，并得出了几个基因之间相关性的分析。Wartiovaara教授提到：“CLIME算法是李扬对学术界的一个重要贡献，CLIME算法的在线分析网站不仅仅我的研究小组的研究人员经常使用，同时也是被国际上很多研究人员经常使用的工具”。

對于未来的研究方向，李扬表示，随着科技发展，各个领域各个行业的数据量都在迅猛增长，每天会出现不同来源、不同形式、包含不同信息的数据。而通过数据来发掘有用的信息，帮助人类社会发展是当今社会的一个重要问题。因此，自己下一步将重点研究在高纬度下，如何从众多的变量中选择出最有预测能力的变量。

对话李扬：

《中华儿女》：请简单介绍一下统计学和生物统计学？

李扬：统计学可以算是应用数学的一个分支。统计学不是简单的收集和整理数据，而是通过概率模型来对数据进行分析，从数据中提取有用的信息的系统学科。统计学的研究方法包含广泛。人们除了使用应用数学外，还需要了解和使用计算机科学中的很多算法来分析实际的数据。统计学在生物、经济、金融、社会学方面发挥很大的作用。生物统计学是现代统计学中最早的应用之一。大约100年前，英国的Fisher ， Pearson， Galton等人发明出了一整套统计分析的理论框架，他们将统计学应用在分析遗传学、生物学和农业科学等学科中观测到的数据。比如Galton在研究遗传学数据中，分析了孩子和父亲身高的数据。他发现孩子身高会有向父辈身高均值回归的现象，并发明了线性回归方法来解释这些数据。现代统计学已经在各科学的研究和各行业的生产实践中得到极为广泛的应用。

《中华儿女》：统计学和生物统计学为何现在如此受到人们的关注？

李扬：现在是一个数据爆炸的时代。随着科学技术的发展，各个行业都在变得更加电子化和定量化，都在生成“大数据”。这些大数据虽然包含很多的信息，但是这些信息都隐藏在数据中，并不是直观表现在外在的。引用我的导师刘军教授的话，大数据是“原油”而不是“石油“。我们需要使用系统的方法来分析数据，从数据中提取有用的信息。统计学通过建立定量模型来揭示大数据中的复杂关系，通过这些模型预测未来结果并发现潜在的科学机制。现今各大科技公司都有数据科学（Data Science）部门，招聘了很多数据科学家（Data Scientist）来分析数据，提高产品的使用体验，更好的为客户服务。例如说在线打车公司Uber和Lyft都雇佣了大量的数据科学家，分析海量的用户打车数据，建立统计模型。这些统计模型可以预测每个城市人口活动的分布，实现对出租车的精确调度。统计学中另一个重要的研究领域被称为“因果推断”，它在生物统计学中有极大的影响。因果推断研究如何从数据中推断出因果关系。比如一个制药公司研制出了一种新药，需要进行临床实验判断这个新药是否比老的药更有效果。在实验中采集各种数据，通过统计分析来判断这个新药是否有效。

《中华儿女》：可以简单介绍一下你的研究工作吗？

李扬：我的研究方向是整合生物基因组大数据，建立统计模型，来预测人类基因的功能。人类基因组中含有大概2万个基因，然而我们只对其中不到50%的基因有所了解。另外50%的基因我们根本不知道他们是在人体中起到什么作用。对于现在很多的疾病，我们知道他们是遗传疾病，但我们并不知道这些疾病是由于哪个基因产生了变异。所以预测这些未知基因的功能就是一个很重要的问题。

我的研究方向是通过统计方法，建立人类基因的进化模型，分析出哪些基因是共同进化的。我们的研究之前，人们大致上知道共同进化的基因很有可能是相同功能的，但是一直缺乏一个系统的统计方法去预测两个基因的共同进化。我研究了这个问题，提出了使用了隐马尔科夫模型（Hidden Markov Model）对基因进化进行建模，并使用马尔科夫链采样算法（Markov chain Monte Carlo）把进化模型相似的基因进行聚类。这个模型很成功，我们的论文发表在了Cell杂志上。我们在论文里使用了138个物种（包含动物、植物、单核生物等）的基因序列数据，重构了2万个人类基因的进化历史。通过把进化历史相似的基因进行聚类，我们对几千个人类功能未知基因的功能做出了功能预测，论文发表之后有美国、芬兰、澳大利亚、日本等国家的实验室对我们的预测结果做了生物实验验证，都得到了正面的结果。我的另一个工作是用统计方法整合基因表达大数据，通過预测基因的共同表达来发现基因和基因之间的关系。我们知道基因是需要通过转录表达成mRNA在细胞中发挥功能。两个基因的mRNA表达如果有高度的相关性，说明这两个基因很有可能发挥相关的作用。之前学术界已经有多算法来从数据中发现基因的共同表达，但是这些算法都有一个共同的问题，就是它们都是使用一个数据集来寻找共同表达。一个数据集往往数据噪音很大，而且你关心的基因不一定在这个数据集中有表达。所以，我们提出了一个新的基于贝叶斯（Bayesian）模型的统计算法，整合了3000多个在美国国家卫生院（National Institute of Health）公共数据平台上的数据集。通过整合这样规模的大数据，在预测基因的共同表达上这个新的算法显著比以前的算法有更高的准确性。在论文中，我们通过预测的基因共同表达找到了很多关联基因，我们的合作者还通过生物实验验证了其中的一些预测。哈佛大学为这个新的统计算法建立了网站（www. gene-clic.org），这个网站有很高的访问量。

《中华儿女》：能否谈一下统计学未来的发展方向？

李扬：我认为统计学在未来会越来越多的注重于应用。以前统计学中很多研究是建立各种各样的数学理论。这些理论建立了统计学的基础，推动了统计算法的发展。现在我们要做的就是把这些统计方法应用到更广泛的场景中去。在这方面，统计学家们要增加和计算机科学家们的合作。现在很火的机器学习是统计学和计算机的交叉学科，他的很多核心方法是统计学的理论，不过更侧重于应用。通过使用计算机科学的大规模算法，机器学习把统计学应用到更大的数据集和更多的问题中去。对于未来我认为统计学和计算机科学会走的越来越近，统计学家会使用越来越大规模的计算平台，计算机科学家也会越来越多的学习统计理论来指导他们的数据分析。在未来这个以数据和电子设备驱动的时代，统计学必然会发挥越来越大的作用。