当前位置:首页 期刊杂志

基于高通量测序的中华鳑鲏基因组微卫星特征分析及标记开发

时间:2024-05-21

熊良伟,王帅兵,封 琦,王建国,岳丽佳,张 娟,吴云菲,王 权

(江苏农牧科技职业学院,江苏泰州225300)

鳑鲏鱼是一种常见的淡水小型鲤科鱼类,在欧洲和亚洲地区分布广泛,全世界鳑鲏鱼有近40个种[1]。繁殖期时,雌鳑鲏鱼利用生殖管突将卵产到背角无齿蚌(Anodonta woodiana)等淡水蚌的鳃中,同时雄鳑鲏将精子射到蚌体内,鳑鲏鱼胚胎在蚌鳃瓣发育成熟后游出蚌体,由于其特殊的繁殖习性,一直以来,鳑鲏鱼被当作共同进化研究理想材料[2-3]。而中华鳑鲏(Rhodeus sinensis)是我国特有鳑鲏鱼类,是长江、珠江等支流水体中常见鱼类之一,由于其资源丰富、色彩鲜艳、体型优美,还被用作观赏鱼类进行开发[4]。近年来,由于水体污染、水利设施建设,中华鳑鲏生存环境遭到破坏,中华鳑鲏野生种群数量不断下降,一些水体中华鳑鲏正逐渐消失[5],为此对中华鳑鲏的保护迫在眉睫。

利用分子标记技术分析水产动物遗传多样性可以为其资源保护和利用提供理论指导。微卫星(microsatellite)亦称简单重复序列(simple sequence repeats,SSR),因其在基因组中分布广泛、多态性丰富、PCR扩增重复性好和呈共显性遗传的优点,已广泛应用于水生动物群体遗传结构分析、遗传图谱构建及分子标记辅助育种等研究[6-8],成为当前常用分子标记之一。然而,每种生物的SSR标记在首次使用时须先进行分离和PCR扩增验证,传统通过构建富集文库方法分离SSR标记须要经过建库、杂交、分离、测序等步骤,试验操作繁琐、效率低[9]。利用高通量测序开发SSR标记具有操作简单、效率高等特点[10-12]。本研究利用Illumina Miseq测序技术对中华鳑鲏基因组进行测序开发SSR标记,通过试验验证首次获得中华鳑鲏21个多态性SSR标记,为中华鳑鲏遗传种质资源保护和利用提供研究基础。

1 材料与方法

1.1 试验材料

中华鳑鲏为笔者所在项目组2015年3—6月从泰州地区河道内收集经驯化中华鳑鲏。试验时取活中华鳑鲏的背部和尾柄部肌肉置于100%乙醇中低温保存,共采30尾。

1.2 基因组DNA提取与检测

采用苯酚/三氯甲烷抽提和乙醇沉淀的方法分别提取中华鳑鲏基因组DNA,用0.8%琼脂糖电泳检测DNA完整性,用NanoDrop 2 000超微量分光光度计检测DNA浓度和纯度,要求 DNA 电泳主带 21 kb,D260nm/D280nm在 1.80 ~2.00 nm,DNA样品检测符合要求后置于-80℃超低温冰箱保存待用。

取1尾经检测符合要求中华鳑鲏基因组DNA(约10μg)送上海美吉生物医药科技有限公司进行基因组扫描。

1.3 基因组扫描与拼接

根据Illumina Miseq测序试验流程构建1个350 bp Illumina Miseq PE文库,利用MiSeq测序仪完成测序工作。利用生物信息统计学方法对原始测序数据(reads)进行质控。去除原始测序数据中的接头(adapter)序列;去除原始测序数据的5'端含有非A、T、G、C碱基;修剪测序质量值<Q20的原始测序数据末端;去除含N的比例达到10%的原始测序数据;舍弃质量修剪后长度<25 bp的小片段,经过上述剪切获得高质量的测序片段。

对剪切后的数据使用错误校正(ErrorCorrection),去除低频率的测序错误;后对校正后的数据进行连接(merge),基于重叠(overlap)关系将剪切后的原始测序数据连接到一起;最后用专业组装软件GSde Novo Assembler v2.8对连接好的数据进行拼接获得重叠群序列(Contigs)。

1.4 SSR 位点分析

利用 SSR位点查找软件 MISA(MIcroSAtellite Identification Tool)在组装的重叠群序列中查找SSR位点。参数设置:重复单元为1~6个碱基分别要求重复10、6、5、5、5、5次及以上。查找到的SSR序列记录下重复序列单位(如AG、AAG)、重复次数和该位点重叠群序列号。

查找到的 SSR用 primer3(http://www.simgene.com/primer3)软件设计SSR位点扩增引物,引物长度18~27 bp、GC含量50% ~80%,正反引物相差不超过20%,退火温度(Tm)值控制57~63℃,正反引物Tm值相差不超过1℃,扩增片段大小为100~300 bp。

1.5 SSR PCR 验证

从不同重叠群序列中选择设计好引物的SSR位点50个,要求SSR重复单元为2个或2个以上核苷酸,SSR引物由生工生物工程(上海)股份有限公司合成。先用8个中华鳑鲏基因组DNA样品进行 PCR扩增、PAGE电泳,检测选择SSR标记扩增效果;选择扩增条带清晰、多态性好的SSR标记检测泰州地区中华鳑鲏遗传多样性。

PCR反应体积10μL,其中 DNA模板(约50 ng/μL)1μL,2×Tap PCR MasterMix(上海旭飞生物科技有限公司)5μL,上下游引物(10 μmol/L)各 0.5 μL,去离子水 3 μL。PCR反应程序为:94℃ 预变性5 min;94℃变性40 s,退火1 min,72℃延伸1 min,35个循环;72℃延伸10 min;4℃保存。PCR产物利用12%非变性聚丙烯酰胺凝胶电泳进行检测,银染法显色、定影,照相机拍照保存[13]。

参考 DNA Marker标记(DL500 DNA marker,TaKaRa),根据中华鳑鲏每个个体在检测SSR位点电泳条带的位置确定每个个体的基因型。利用CONVERT1.3.1软件[14]将中华鳑鲏各位点基因型进行转换。每个检测SSR位点等位基因数(N)、观测杂合度(HO)和期望杂合度(HE)由Popgene 1.32分析;用PICCale 0.6计算多态信息含量(PIC);哈迪-温伯格平衡(Hardy-weinberg equilibrium,HWE)和连锁不平衡情况由Popgene4.2检验。

2 结果与分析

2.1 基因组扫描与组装

通过对中华鳑鲏350 bp Illumina Miseq PE文库高通量测序获得原始测序数据 151 418 131个 ×2条,碱基数45.43 Gb,对获得原始测序数据每个位点碱基进行分析,结果获得的reads序列第10位点后,各位点ATGC 4种碱基波动较小,几乎呈一直线,N的比例非常低,说明建库均匀,测序结果好,可用于后续分析。

通过对原始reads质量剪切,获得高质量序列43.38 Gb。利用序列拼接软件对剪切后数据进行组装(表1),共获得重叠群序列 416 997个,片段累计长度5.17 Gb,GC含量为37.81%;组装的重叠群序列中片段长段>1 kb有203 411个,占48.78%;N50 和 N90 分别为1 852、1 139 bp,说明中华鳑鲏基因组组装质量好。

表1 中华鳑鲏基因组组装情况一览表

2.2 SSR 位点分析

从组装的序列中共检测到249 167个SSR位点,其中二核苷酸重复 SSR最多,有 133 528个,占总 SSR数量的53.59%;其次为单核苷酸重复SSR,有85 198个;其他数量由多到少依次为三核苷酸、四核苷酸、五核苷酸和六核苷酸重复SSR,分别为 17 652、11 436、1 124、229 个(表 2)。随着重复单元重复次数增加,SSR数量逐渐减少(图1)。

表2 中华鳑鲏基因组中不同类型SSR统计

由表2可知,二核苷酸重复SSR占总SSR数量达到53.59%,说明二核苷酸重复SSR是中华鳑鲏主要SSR类型。在SSR分析过程中,考虑到碱基互补配对,将同类重复兼并为一种重复,二核苷酸重复SSR有AC/CA/TG/GT、AG/GA/TC/CT、AT/TA、GC/CG 4种重复类型。由图2可知,二核苷酸重复SSR 4种类型重复SSR数量相差较大,重复序列为AC/CA/TG/GT SSR有80 964个,比例达到60.63%;重复类型为GC/CG SSR仅有423个,比例仅为0.32%;重复类型为AG/GA/TC/CT和 AT/TA的 SSR数量较为接近,分别有29 587 个(22.16%)和 22 554 个(16.89%)。

2.3 中华鳑鲏SSR评价

在查找的SSR位点中有212 109个位点设计出符合条件的PCR引物,占总位点数的85.13%。随机合成的50对PCR引物扩增验证结果中有9对引物未能检测出扩增产物;41对引物检测出扩增产物,其中,在8份DNA样品中扩增产物带型复杂或无多态性的引物有13对,其余28对引物扩增产物带型清晰、无(或少量)杂带、具多态性。

2.4 中华鳑鲏群体遗传多样性分析

采用“2.3”中多态性丰富、扩增条带清晰的28对SSR引物检测分析中华鳑鲏泰州野生群体遗传多样性,28对引物中有21对引物扩增效果稳定、产物带型清楚,其SSR特征见表3。21个SSR位点中每个位点观测到等位基因3~13个;观测杂合度和期望杂合度分别为 0.306 7~0.914 5和0.384 5 ~0.952 1;多态性信息含量为 0.317 3 ~0.910 5;分析得到 Rs4、Rs9和 Rs36 3个位点存在无效等位基因;经Bonferroni校正后,除 Rs4、Rs43、Rs44 3个位点外,其余位点等位基因频率符合Hardy-Weinberg平衡;连锁不平衡检测表明,各位点间不存在连锁不平衡现象。

3 讨论与结论

SSR是由1~6个核苷酸为重复单元组成的DNA序列,在真核生物基因组中广泛存在[15],有了生物基因组信息就可以分析基因组SSR特征。随着基因组学研究技术进步,世界上许多重要经济鱼类基因组序列图谱已经绘制。我国鲤科鱼类资源丰富,2014年和2015年我国研究人员先后完成了鲤鱼(Cyprinuscarpio)[16]和草鱼(Ctenopharyngodon idellus)[17]基因组测序工作,其中鲤鱼基因组为16.9 Gb,雌草鱼基因组0.9 Gb、雄草鱼1.07 Gb。2016年Yang等完成了滇池金线鲃(S.grahami)、犀角金线鲃(S.rhinocerous)和安水金线鲃(S.anshuiensis)基因组序列研究工作,获得3种金线鲃基因组序列分别为 1.75、1.73、1.68 Gb[18]。本试验利用 Illumina Miseq测序技术对中华鳑鲏基因组进行扫描,获得高质量基因组序列43.38 Gb,组装后的contigs序列长度达到5.17 Gb。参考草鱼、金线鲃和鲤鱼基因组大小,本次中华鳑鲏基因组测序深度大,基因组覆盖率高,组装后的contigs序列特征能代表基因组特征,因此本次开发的微卫星标记能反映中华鳑鲏基因组SSR标记特征。

从查找到中华鳑鲏SSR位点来看,中华鳑鲏SSR种类较丰富,基因组中1~6核苷酸的重复SSR均存在,其中二核苷酸重复SSR占主导地位,占SSR总数的53.59%,其次是单核苷酸重复SSR,占SSR总数的34.19%,而3~6核苷酸重复SSR含量较低,均不超过8.00%。进一步分析发现,二核苷酸重复的4种类型SSR标记数量相差较大,AC/CA/TG/GT重复序列SSR占二核苷酸标记60.63%,GC/CG重复序列仅占0.32%,AG/GA/TC/CT和 AT/TA重复序列SSR分别占22.16%和16.89%。说明在中华鳑鲏基因组中以二核苷酸重复SSR标记为主,AC/CA/TG/GT重复序列SSR数量丰富,而GC/CG重复序列SSR少见。在裸体异鳔鳅(Xenophysogobio nudicorpa)SSR特征分析中发现,二碱基重复SSR占总SSR比例高达83.15%,AC/CA/TG/GT重复占二碱基重复SSR 49.36%,仅发现4个核心序列为GC/CG的重复类型[11];中华绒螯蟹(Eriocheir sinensis)基因组扫描分析结果表明,二碱基重复SSR占总SSR比例最高,达到58.54%,二碱基重复 SSR中 AC/CA/TG/GT重复类型为 67.55%,GC/CG 重复类型不到0.01%[10]。裸体异鳔鳅和中华绒螯蟹SSR特征与中华鳑鲏SSR特征相似,说明AC/CA/TG/GT重复SSR在水产动物基因组中分布较多,GC/CG重复SSR较少。

在高通量测序技术广泛应用之前,富集法成为开发SSR标记最常用的方法。鲁翠云等采用磁珠富集法结合放射性同位素杂交法得到 SSR序列 325个,合成引物 145对,有44.62%SSR位点可以设计引物[19];郭宝英等采用生物素标记的(CA)12探针从黑斑原鮡(Glyptosternum maculatum)基因组富集库中筛选SSR标记,结果124个含SSR序列中有59条可以设计引物,比例为47.58%[20]。本研究利用 Illumina Miseq测序技术开发中华鳑鲏SSR标记,从基因组中查找到各种类型重复 SSR位点249 167个,由于组装序列长,85.13%SSR位点可以设计出引物,PCR扩增试验中合成的50对引物中仅9对引物未能得到扩增产物。由此可以看出,利用高通量测序技术开发SSR标记不仅数量大,而且拼接后序列长,可设计PCR引物的SSR位点比例高。

表3 中华鳑鲏21个多态性微卫星位点的基本信息和遗传多亲性参数

21个多态性SSR检测泰州地区中华鳑鲏群体结果显示,每个SSR位点存在等位基因3~13个,平均7个,PIC平均值超过0.500 0,达到0.655 3,绝大多数标记(21个标记中的18个)符合Hardy-Weinberg平衡,且各位点间不存在连锁不平衡现象。上述结果表明,本研究开发21个多态性SSR标记适用于我国中华鳑鲏野生资源评估和遗传多样性分析。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!