时间:2024-08-31
蒋 帅, 游昌乔,, 张红明,, 秦 红, 郭新红
(1. 湖南大学生物学院, 长沙 410082; 2. 南华生物医药股份有限公司, 长沙 410006)
新型冠状病毒 (Severe acute respiratory syndrome coronavirus 2, SARS-CoV-2) 属于冠状病毒科(Coronaviridae),乙型冠状病毒属(Betacoronavirus, Beta-CoV),沙贝病毒亚属(Sarbecovirus)的一种毒株,为正义单链RNA病毒(Positive-sense single-stranded RNA virus, (+) ssRNA virus)[1]。SARS-CoV-2及其变体的基因组测序[2]、蛋白质结构预测[3]和遗传谱系构建[4]等问题逐渐被攻克。检测人群感染SARS-CoV-2的鉴定技术主要包括:一是对区域内大规模人群或个人的核酸采样并进行PCR检测[5-6],二是采用化学发光技术检测人群血清特异性抗体IgM、IgG水平[7]。以上技术不但消耗大量的时间和人力成本,而且鉴定病毒感染的重复性和准确性也欠佳[6-7]。
条形码技术于2003年首次由保罗·赫伯特(Paul Hebert)提出[8]。与传统生物识别技术相比,条形码片段通过挖掘物种的遗传信息进而获得更多特异性分子遗传标记[9]。这些特异性标记不仅能够有效鉴定物种,也可以作为物种出现大规模变异的判断依据。近年来,研究表明条形码技术在病毒鉴定方面卓有成效[10-11]。因此,旨在设计RNA条形码片段对SARS-CoV-2进行更快、更精确的鉴定。
从美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)数据库[12]中收集所有已发表的乙型冠状病毒属参考全基因组(Refseq complete genome)序列。此外,序列库(Sequences database)还收集了SARS-CoV-2的6种主要变种(Alpha B.1.1.7, Belta B.1.351, Delta B.1.617.2, Gamma P.1, Lambda C.37, Omicron B.1.1.529)以及甲型冠状病毒属(Alphacoronavirus, Alpha-CoV)的剩余2种人冠状病毒(Human Coronaviruses, HCoVs)[1]毒株(Human coronavirus 229E, HCoV-229E;Human coronavirus NL63, HCoV-NL63)的参考(Reference)全基因组序列以研究SARS-CoV-2内部的变异水平。
基于MAFFT算法,序列库进行在线多重序列比对(https:∥mafft.cbrc.jp/alignment/server/)[13]。完成比对过程后,利用分子进化遗传(Molecular Evolutionary Genetics Analysis, MEGA 11.0)[14]与基因多态性分析软件(DNA sequence polymorphism, DNAsp6)[15]对结果进行核酸序列与遗传多样性分析。
根据MEGA 11.0中的核酸演化速率K2P模型(Kimura 2-parameter model, K2P),分别以序列库内的SARS-CoV-2和人体冠状病毒序列作为同一分类群(Groups),其他序列作为外群(Outgroups),对2种序列库分别计算种内平均遗传距离(Within group mean distance)与种间平均遗传距离(Between group mean distance)并构建各自相应的种内种间平均遗传距离热图。以上2个热图中,对角线中的方格表示每个毒株的种内平均遗传距离。由于序列库中毒株数量较多,因此出于分析结果准确性的考虑,采用Phylip[16]自带的邻接法(Neighbor-Joining, NJ)构建进化树(置信度设置大于90),并使用iTOL(Interactive Tree Of Life, iTOL)(https:∥itol.embl.de/)[17]在线网站完成对进化树的可视化。
将SARS-CoV-2及其变种的相关序列设置为序列库内的唯一数据集(Dataset),并利用DNAsp6中的“Polymorphism”功能检索SARS-CoV-2所含单核苷酸多态性位点(Single nucleotide polymorphism sites, SNP sites)[18]的数目(以下简称为SNP位点)。本质上,SNP位点与变异位点(Variable sites)含义相同[19],因此,再利用DNAsp6中的“Polymorphic sites”功能记录SARS-CoV-2中所有变异位点在序列库中的相对位置。
根据检索到的所有SNP位点,以其中一个位点为截取条形码片段的起始端,以该位点后续一个位点作为片段的末端对序列库内SARS-CoV-2序列进行片段剪切。利用NCBI的Blast序列比对窗口(https:∥blast.ncbi.nlm.nih.gov/Blast.cgi)对剪切的所有片段进行标准核苷酸数据库(Standard nucleotide databases)内比对,其比对对象包括所有在NCBI正式发布的核苷酸序列(截至2022年6月共计发布83 793 632条),并设置比对结果参数(Program selection parameters)为仅包含最高相似度序列(Highly similar sequences)。得到片段的前5 000个Blast比对结果后(最大结果显示数目为5 000),记录所有结果中的最高比对总分值(Total scores)。当5 000个比对结果均为SARS-CoV-2毒株并且相应的比对总分值始终等于最高比对总分值时,认为该片段可以准确稳定地鉴定SARS-CoV-2。在Blast系统中,输入的每个片段长度并不相同,对片段Blast后的比对总分值大小也不相同。由于序列库经MEGA比对后内部出现部分空缺位(Gaps and missing data)[20],需要利用DNAsp6中的“Conserved DNA regions”功能对剪切的片段进行序列库内保守性测试[21],以得到每个片段的打分数据(Pvalues)作为评价条形码片段的依据。
选取SARS-CoV-2中各基因编码区内比对总分值最高以及P值最低的物种特异性片段绘制成可视化一维与二维组合条形码。对一维梳齿状条形码而言,其内部碱基A、U、C和G分别用绿色、红色、蓝色和黑色表示,而AU和GC碱基对则分别以长梳齿以及短梳齿表示以作区分。二维码则通过在线二维码生成网站(https:∥www.chitus.com/)制作,容错率设置为30%, 以确保二维码在部分缺失时仍可使用。
通过对NCBI数据库进行序列查找与筛选,构建的序列库共包含Betacoronavirus属(5个亚属, 21种毒株)以及Alphacoronavirus属(2个亚属, 2种毒株) 的26条序列(表1),平均长度为31 491 bp。其中,Hibecovirus、Duvinacovirus和Setracovirus亚属只包含单种单毒株。
表1 病毒毒株NCBI编录号与名称Table 1 Accession numbers and strain names published at NCBI website
过滤掉比对后序列库内的所有缺失位点后,分析结果表明序列库内全基因组序列之间存在较高的单核苷酸多态性(表2)。其中,保守位点的数目(4 041个)远小于变异位点的数目(16 681个),仅占所有分析位点的19.50%。此外,简约性信息位点和单一变异位点作为两种不同类型的变异位点,它们之间也同样存在很大的数目与变异位点占比差异(15 721,960;94.24%,5.76%)。
表2 序列库单核苷酸多态性Table 2 Single nucleotide polymorphism in the sequences database
所有序列的AU比GC碱基对的平均含量高出21.6%,单倍型多样性为0.994,核苷酸多样性(0.390 3)和核苷酸替换率(转换率与颠换率之和;0.410 4)均高达0.4左右,说明序列整体存在较高的多态性(表3)。而该库的序列转换颠换率比接近0.7,也意味着这些序列内碱基替换(点突变)主要以转换形式。
表3 序列库序列多态性Table 3 Sequences polymorphism in the sequences database
SARS-CoV-2分类群的种内平均遗传距离值远小于序列库内与其他病毒毒株之间的种间平均遗传距离值,说明SARS-CoV-2及其变种内部的遗传多样性与其他毒株均不相同(图1)。Hp-BatCoV和SARS-CoV毒株与SARS-CoV-2的种间遗传距离最小,三者的核酸序列更具有同源性。HCoVs分类群的种内平均遗传距离值较高,且该值相近于HCoVs分类群与序列库内其他所有病毒毒株之间的种间平均遗传距离值,因此,无论HCoVs分类群内部或与其他毒株之间均存在较小的序列同源性(图2)。
图1 序列库种内与种间平均遗传距离(SARS-CoV-2为分类群)Figure 1 Within and between group mean distances of sequences database (the group: SARS-CoV-2)
图2 序列库种内与种间平均遗传距离(HCoVs为分类群)Figure 2 Within and between group mean distances of sequences database (the group: HCoVs)
系统发育树结果表明,SARS-CoV-2参考株与其他SARS-CoV-2变体之间有着显著的同源性(图3,黄色区域)。对HCoVs分类群的其他毒株(红色区域),它们与SARS-CoV-2及其变体之间则存在明显的分化差异。其中HCoV-HKU1、HCoV-OC43、MERS-CoV和SARS-CoV与SARS-CoV-2分类群的分化差异逐渐缩小,Alpha-CoV属的HCoV-229E与HCoV-NL63毒株则单独被分成一支,与SARS-CoV-2的分化差异最大。而HCoVs分类群之外的其他毒株(白色区域)和SARS-CoV-2及其变体之间也存在一定的分化差异。因此,SARS-CoV-2分类群中存在着大量稳定、关键的遗传标记(SNP位点)得以将该分类群与其他毒株区分开,而这些遗传标记最终将作为挖掘条形码片段的关键位点。
图3 序列库的系统发育树(NJ法)Figure 3 The phylogenetic tree (NJ) of sequences database
以SARS-CoV-2分类群内部序列特有的SNP位点(16 681个)为剪切端,对序列进行片段裁剪并Blast比对,最终得到符合要求的18条(17条位于ORF1ab基因编码区,1条位于S基因编码区)长度(Length),比对总得分值(Total scores)以及P值(Pvalue)均不相同的条形码片段(图4)。所有符合要求的条形码片段长度均大于100 bp。这些条形码片段的比对总得分值随着片段长度的增长而上升,同时P值则呈现波动式下降。出于鉴定重复性与稳定性的考虑[22],本文选取分别位于ORF1ab和S基因编码区的2条得分值最优的条形码片段并将其可视化,其片段全长、比对总得分值以及P值大小分别为427 bp,100 bp;789,185;0,0.042 3(图5)。通过电子移动设备扫描可视化的二维码可以便捷地获得文本形式的条形码片段核酸序列,而该序列的长度与碱基组成信息则在一维条形码中更加直观地表达出来。
图4 位于ORF1ab与S基因区的所有条形码片段Blast比对结果Figure 4 NCBI Blast output of barcode segments in ORF1ab and S gene regions
图5 基于ORF1ab与S基因区的条形码片段构成的 SARS-CoV-2的组合条形码Figure 5 Combinatorial barcodes of SARS-CoV-2 based on barcode segments in ORF1ab and S gene regions
条形码概念提出以来的近20年间[8],已经在动物[23]、植物[21]以及微生物[24]的物种分类与鉴定方面取得了显著成就。条形码本质作为一种分子遗传标记,和微卫星相似[25],同样对病毒的快速鉴定与变异程度检测起到一定的作用。在鉴定山茶科(Theaceae)[18]以及兰科(Orchidaceae)[21]植物的研究中,研究人员均利用纯生物信息学方法筛选到了特异性物种条形码片段,并根据遗传距离以及系统发育树结果证明了条形码确实可以有效地对以上植物物种进行鉴别。
利用条形码片段等分子遗传标记可以在物种和种群水平上快速鉴定病毒[26]。本文首次采用纯生物信息学方法通过大数据筛选并获得了SARS-CoV-2全基因组序列中ORF1ab和S编码区的2条条形码片段,并通过遗传距离与系统发育分析不仅验证了以上条形码片段能够有效地将SARS-CoV-2从Beta-CoV以及HCoVs中鉴别出来而不受SARS-CoV-2自身突变的影响,还证实了以上条形码片段对鉴别SARS-CoV-2具有很强的稳定性。
文内序列库主要由NCBI官网所提供的参考序列或已发表的序列构建,而这些序列在确保测序准确性的同时,研究人员也对这些全基因组序列内部基因进行了注释,从而也为查找条形码片段所在基因的位置提供了参考。单核苷酸与序列多态性实验结果也说明序列库内的全基因组序列之间存在极大遗传差异,相比非裂解性纺锤状病毒(Sulfolobus spindle-shaped viruses, SSV)[27],Beta-CoV属以及HCoVs分类群病毒毒株内部存在更多潜在的SNP位点,而这些SNP位点将有助于条形码片段的查找。遗传距离分析结果表明,序列库内SARS-CoV-2分类群的种内与种间平均遗传距离差值较大,因此SARS-CoV-2及其变种之间的内部遗传差异不会影响SARS-CoV-2的鉴别。同样,系统发育树结果也表明SARS-CoV-2的参考序列与相关突变株之间的内部遗传分化差异非常小,但与Beta-CoV属以及HCoVs分类群的所有毒株之间遗传分化差异较大。因此,无论在Beta-CoV或者HCoVs分类群中,条形码片段鉴定SARS-CoV-2都具有显著的效果。值得注意的是,在Saini[22]以及Badua[28]等对SARS-CoV-2各基因变异水平的研究中,他们发现ORF1ab基因序列内部的变异程度远小于SARS-CoV-2中的大多数编码区,而且ORF1ab的核苷酸突变热点(Nucleotide mutation hotspots)位于第11 083位核苷酸(5′-3′)左右。因此选择超过长度400 bp,截选自1 600(±50 bp)位至2 040(±50 bp)位核苷酸的片段,并不会受到因SARS-CoV-2变异所造成的条形码难以使用或失效的影响。
本研究仍存在一定局限性。首先,NCBI数据库中测序的全基因组序列含有少量空缺位,导致部分SNP位点被忽略,筛选到的条形码片段更少。其次,基于RNA片段鉴定SARS-CoV-2的条形码技术目前有待实验验证。实际上,这些空缺位占比不足基因组全长的1%,而且基于大数据的Blast比对结果也验证了条形码的鉴别准确性,因此少数被忽略的SNP位点不会对条形码片段筛选操作造成较大影响。未来,我们会将得到的可视化组合条形码在在线数据库中公布,并希望能通过实验来验证条形码片段以进一步完善技术流程。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!