当前位置:首页 期刊杂志

龙脷叶转录组分析及黄酮类生物合成相关基因的挖掘

时间:2024-05-24

徐世强 ,梅 瑜 ,曹 阳 ,黄志娜 ,蔡时可 ,王继华 ,3

(1.广东省农业科学院作物研究所/广东省农作物遗传改良重点实验室,广东 广州 510640;2.广东省农业科学院农业经济与农村发展研究所,广东 广州 510640;3.农业农村部华南都市农业重点实验室,广东 广州 510640;4.中山永正生物医疗投资有限公司,广东 中山 528400)

【研究意义】药用植物遗传资源是中药新药研发、优良品种选育的基础,但近年来国内外对中药材的需求量急剧增长,导致中药材面临种质退化、资源耗竭、品质不稳定等问题。因此,利用现代生物学技术解析药用活性成分的合成途径和调控机制来推动合成生物学的发展,是药用植物资源的保护与利用的重要课题。【前人研究进展】龙脷叶(Sauropus spatulifoliusBeille),又名龙利叶、龙肝叶、龙舌叶、龙味叶和牛耳叶等,为大戟科守宫木属常绿小灌木,广泛分布于我国福建、广东、广西等地。龙脷叶具有重要的药用价值和观赏价值,其性甘、淡、平,具有清热解毒、祛痰止咳的功效,常用于治疗肺热咳嗽以及上呼吸道炎症引起的咽痛、急性支气管炎等症[1]。龙脷叶在我国南方也常作为食疗药材,其干燥的叶也是凉茶的主要原料之一。现代药理学研究表明龙脷叶具有抗炎镇痛、抗过敏、抗氧化、止咳祛痰等活性[2-4]。化学成分研究表明龙脷叶中富含氨基酸、多糖、多酚类、有机酸类、甾醇、生物碱类、萜类、苯丙素类和黄酮类等物质[5-6]。黄酮及其糖苷类化合物是龙脷叶主要的活性成分之一,2015年版《中华人民共和国药典》中将山奈酚3-O-龙胆二糖苷的含量作为评价龙脷叶质量的标准。基于高通量测序技术的转录组和生物信息学分析不受基因组信息的限制,在阐明药用活性成分合成途径、挖掘相关功能基因、揭示其生长发育规律、开发中药鉴别的DNA分子标记等方面奠定了重要基础[7-8]。目前,许多药用植物的转录组学研究已经开展,例如半枝莲、白木香、茜草等,并鉴定到大量涉及黄酮类、萜类、蒽醌类等活性物质生物合成途径相关的基因[9-11]。【本研究切入点】目前,龙脷叶的研究多集中于药理作用和化学成分鉴定等方面,关于龙脷叶的转录组学分析和次生代谢产物的合成途径解析,尤其是黄酮类化合物生物合成关键基因的鉴定与研究还未见相关报道。【拟解决的关键问题】由于缺乏龙脷叶基因组信息,本研究采用Illumina HiSeqTM4000测序技术对龙脷叶不同组织器官(叶、花和根)进行混池建库和合并组装构建龙脷叶的转录组unigene库,并基于公共数据库进行功能分析,解析龙脷叶黄酮类化合物生物合成途径及相关的功能基因,为下一步克隆黄酮类生物合成关键基因、功能验证以及开展合成调控机制研究提供基础数据。

1 材料与方法

1.1 试验材料

供试材料种植于广东省中山市永正中草药研究所的温室,经广东省农业科学院作物研究所蔡时可高级农艺师鉴定为龙脷叶(S.spatulifolius)。选取健康的3年生龙脷叶5株,分别采集叶、花和根3个不同器官,立即在液氮中冷冻,存储于-80 ℃冰箱保留备用。

1.2 试验方法

1.2.1 RNA提取 采用植物RNA提取试剂盒(Omega)分别提取龙脷叶3个器官的总RNA,用1%琼脂糖凝胶电泳检测RNA的完整性。使用Agilent 2100 Bioanalyzer评估RNA的质量和完整性。将检测合格的总RNA等量混合,用于Illumina平台进行建库与测序。

1.2.2 建库测序与拼接组装 采用带有Oligo(dT)的磁珠富集mRNA并加入fragmentation buffer片段化,通过六碱基随机引物反转录合成第一条cDNA链,然后通过DNA polymerase Ⅰ合成cDNA第二链,经过QiaQuick PCR试剂盒纯化并做末端修复、加poly(A)并连接测序接头,通过片段大小选择后进行PCR扩增,构建的龙脷叶测序文库采用Illumina HiSeqTM4000进行测序。得到原始数据后,利用Fast QC进行评估,并使用NGS QC工具包进行过滤获得高质量的clean reads,然后采用Trinily行转录本的拼接组装获得unigene[12-13]。

1.2.3 Unigene的功能注释 采用blastx程序(E-value<0.00001)将组装的unigene在Nr、SwissProt、KEGG和KOG数据库进行比对分析。用Blast2GO软件分析GO的功能注释,并采用WEGO软件进行功能分类。根据文献报道的高等植物黄酮类合成途径,结合转录组注释的结果,采用本地blast进行比对分析,筛选参与龙脷叶黄酮类化合物合成的相关基因[14-15]。

1.2.4TFs、R基因和SSRs鉴定分析 采用blastp将unigene编码的蛋白序列与植物转录因子数据库v4.0(http://planttfdb.cbi.pku.edu.cn/)进行比对,预测龙脷叶TFs家族;通过与植物R基因数据库PRGdb(http://PRGdb.crg.eu/wiki/Main_Page) 进行比对分析,预测龙脷叶中的R基因。采用软件MISA(http://pgrc.ipk-gatersleben.de/misa/)对龙脷叶转录组所有Unigene 存在SSRs进行鉴定分析。

2 结果与分析

2.1 龙脷叶转录组测序与de novo组装

采用Illumina HiSeqTM 4000测序平台进行龙脷叶转录组的高通量测序,共获得90 679 574条raw reads,经过数据过滤后共得到88 396 692条 clean reads,Q20达97.02%,Q30达92.49%,GC量为44.61%,表明测序质量较高,能够满足后续的生物信息学分析。利用Trinity软件,共组装46 600个unigene,平均长度877 bp,N50为1 441 bp,GC含量为41.66%。组装的unigene长度分布表明,47.77%的unigene长度在200~500 bp之间,长度大于1 000 bp和大于2 000 bp的unigene分别占29.76%和9.82%(图1A)。

2.2 龙脷叶转录组功能注释

使用BLAST软件将组装的unigene与NR、SwissProt、KOG和KEGG数据库进行比对分析获得龙脷叶转录组unigene的注释信息。由图1 B可知,共有34 188个(73.36%)unigene获得功能注释,其中34 092个(73.16%)和24 336个(52.22%)unigene分别在NR和SwissProt数据库中得到注释,9 799个(28.66%)unigene在各数据库中均得到注释,而12 412个(26.64%)unigene没有获得功能注释。由图1 C可知,龙脷叶unigene 在NR数据库相似序列匹配的近缘物种中,麻风树(Jatropha curcas)的匹配率最高,共有5 628个(16.51%)unigene,其后依次是蓖麻(Ricinus communis, 4 833个、14.18%)、胡杨(Populus euphratica, 3 819个、11.20%)、可可(Theobroma cacao, 2 086个、6.12%)、毛果杨(Populus trichocarpa, 1 924个、5.64%)。

2.3 KOG功能分类

共有(73.53%)34 267个unigene被注释到25个KOG功能分类。其中涉及一般功能预测的基因最多,共有8 501个、占24.81%,其后依次是翻译后修饰、蛋白质转换、伴侣(3 662个、10.69%)、信号转导机制(3 556个、10.38%)和转录(1 934个、5.64%),只有少数unigene被注释到细胞运动和细胞外结构(分别为15、64个),还有1 367个unigene涉及功能未知;共有1 151个unigene分配到次生代谢物生物合成、运输和分解代谢,占总数的3.36%,这些基因可能涉及龙脷叶中次生代谢物的生物合成、运输和积累。

2.4 GO功能注释分类

共有41 181个(88.37%)unigene被注释为42个GO功能分类。其中45.39%的unigene注释到生物过程中,依次为代谢过程(6 114个、14.85%)、细胞过程(4 889个、11.87%)、单有机体过程(3 720个、9.03%)和定位过程(1 043个、2.53%)等;28.94%的unigene注释到分子功能中,依次为催化活性(6 564个、15.94%)、代谢过程(6 114个、14.85%)、细胞过程(4 889个、11.87%)和结合过程(4 319个、10.62%)等;25.66%的unigene分配到细胞成分,其中细胞和细胞部分注释到的unigene数量最多(2 256个、5.48%),其后依次是细胞器(1 597个、3.83%)、膜(1 520个、3.69%)和膜部分(1 225个、2.98%)。

图1 龙脷叶转录组组装的unigene长度分布和功能注释Fig. 1 Length distribution and functional annotation of unigenes assembled by S. spatulifolius Beille transcriptome

2.5 KEGG代谢通路分析

由图2可知,共有6 902个unigene涉及参与萜类、黄酮类、脂质等132条代谢途径。其中185个unigene涉及苯丙素生物合成(ko00940),56个unigene涉及类黄酮生物合成(ko00941),9个unigene参与黄酮和黄酮醇生物合成(ko00944),2个unigene参与异黄酮生物合成(ko00943)(图2 A);72个unigene涉及萜类骨架生物合成(ko00900),46个unigene涉及类胡萝卜素生物合成(ko00906),39个unigene涉及二萜类生物合成(ko00904),35个unigene涉及倍半萜和三萜生物合成(ko00909)和12个unigene涉及单萜生物合成(ko00902)(图2 B)。

2.6 黄酮类生物合成基因的鉴定

黄酮类通常以糖苷或其他结合物的形式积聚,合成的底物来源于苯丙酸途径和三羧酸循环。黄酮类物质是龙脷叶的主要活性成分,其中山奈酚-3-O-龙胆二糖苷的含量是评价龙脷叶质量的标准。根据龙脷叶的转录组数据绘制龙脷叶黄酮类生物合成代谢途径(图3)。在苯丙酸生物合成途径中,苯丙氨酸由苯丙氨酸解氨酶(PAL)、4-香豆酸-CoA连接酶(4CL)和肉桂酸4-羟化酶(CYP73A/C4H)催化合成肉桂酰CoA和对香豆酰CoA,作为黄酮类化合物合成的起始底物。在黄酮类化合物的生物合成中,对-香豆酰CoA和丙二酰CoA(来源于三羧酸循环)在查尔酮合酶(CHS,黄酮类化合物生物合成的第一个关键酶)的催化下产生柚皮素查尔酮或异甘草素,然后在黄酮代谢途径上游的关键酶查尔酮异构酶(CHI)的作用下,柚皮素查尔酮或异甘草素被迅速异构化形成柚皮素或甘草素。随后,甘草素作为底物主要进入异黄酮生物合成途径,柚皮素作为主要的中间产物进入多种代谢途径。黄烷酮3-羟化酶(F3H)催化柚皮素合成二氢山奈酚,直接影响黄酮类化合物的合成。黄酮醇合酶(FLS)催化二氢山奈酚形成山奈酚,作为黄酮合成途径的底物。龙脷叶中类黄酮生物合成过程中的产物在不同酶的催化下参与不同的代谢途径,产生多种次生代谢产物。在龙脷叶的转录组数据中共发现38个主要参与黄酮类的生物合成的关键基因,其中5个编码CHS,2个编码CHI,3个编码FLS(表1)。

2.7 转录组中TFs和R基因分析

图2 基于KEGG数据库的代谢途径分析Fig. 2 Analysis of metabolic pathways based on KEGG database

TFs主要调节各种生物过程的基因表达模式,如黄酮类化合物的生物合成途径[16]。根据比对结果,1 256个unigene被分为56个不同的转录因子家族,其中Basic/Helix-Loop-Helix(bHLH)转录因子类的unigene数量最多(92个),其次是ERF、MYB、WRKY、NAC等,这些转录因子信息为进一步用于提高龙脷叶类黄酮生物合成和抗逆性提供了理论依据。植物R基因在识别病原菌的特异无毒性(Avr)基因和刺激诱导抗病的信号转导级联中起着关键作用[17]。共有3 942个unigene被分为15个不同的R基因类别,其中受体样蛋白(RLP)的种类最多(1 047个、占26.56%),其后依次是TNL(660个、占16.74%)、N(603个、占15.30%)和NL(530个、占13.44%),只有少数unigene被分配到RLPMalectin和L(分别为3、8个unigene)。

2.8 转录组中SSRs标记位点分布

SSRs是检测遗传多样性和构建遗传图谱的有效分子标记之一[18]。共从46 600个unigene中鉴定出3 356个SSRs,其中348个序列含有1个以上的SSRs,201个SSRs以复合形式存在,SSRs的平均分布密度为1/12.2kb。3 356个SSRs位点共检测到333种核苷酸基序重复序列,其中以二核苷酸(1 785个、占53.19%)和三核苷酸(1 198个、占35.70%)最多,其次是四核苷酸(147个、占4.38%)、五核苷酸(129个、占3.84%)和六核苷酸(97个、占2.89%)。龙脷叶中SSRs最丰富的重复类型是AG/CT(1 496个、占44.58%),其次是AAG/CTT(396个、占11.80%),ATC/ATG(175个、占5.21%)和ACC/GGT(172个、占5.13%)。基于3 356个SSRs,使用primer 1.1.4设计引物,为进一步研究龙脷叶的遗传多样性和构建遗传图谱提供了有价值的数据资源。

3 讨论

近年来,本草基因组学的发展加速了药用植物基因资源的保护与利用[19]。转录组学研究是本草基因组学研究的重要手段之一,有助于揭示其生长发育、响应逆境胁迫和次生代谢产物富集的调控机制,特别适用于没有完整基因组序列的药用植物的基因结构和功能预测等研究。中药龙脷叶是大戟科植物龙脷叶的干燥叶,常与其他药物配伍治疗间质性肺炎、急性支气管炎。目前关于龙脷叶化学成分和药理作用的研究不断深入,而基因组、转录组学的研究尚未见报道,制约了龙脷叶次生代谢合成途径的解析。本研究采用Illumina HiSeqTM4000测序平台,对龙脷叶不同组织进行转录组测序并构建龙脷叶的unigene库。通过de novo组装共获得46 600个unigene,N50为1 441 bp,长度大于1 000 bp的unigene占39.58%。N50的长度是评价转录组组装质量的重要指标,龙脷叶转录组组装的N50长度与茶树(1 081 bp)的长度相近,但比新塔花的N50长(704 bp),表明龙脷叶转录组测序数据组装效果较好,能够满足后续数据分析的要求[20-21]。

图3 龙脷叶转录组中类黄酮生物合成途径Fig. 3 Pathway of flavonoids biosynthesis in the S. spatulifolius Beille transcriptome

通过与公共数据库进行比对分析获得unigene的功能注释,结果显示共有73.36%的unigene获得功能注释,其中在NR数据库中比对到最多的物种为大戟科近缘物种麻风树和蓖麻,表明龙脷叶转录组组装的序列结果可靠。但还有26.64%的unigene没有获得功能注释,可能是由于组装的unigene序列太短而缺乏保守结构域或者由于数据库中龙脷叶基因组、转录组信息匮乏导致无法获得功能注释。在KEGG数据库中共注释到6 902个unigene参与132个代谢途径,包括萜类、类胡萝卜素、生物碱类、黄酮类等次级代谢的生物合成途径。黄酮类化合物山奈酚及其衍生物具有抗氧化、抗炎、抗菌、抗癌、心脏保护、神经保护、降糖和抗骨质疏松等药理活性[22]。山奈酚3-O-龙胆苷是龙脷叶的主要活性物质之一,其含量常作为龙脷叶质量的检测标准。目前黄酮类化合物的生物合成途径在许多药用植物中已经明确,但关于龙脷叶中黄酮类的生物合成途径和相关的功能基因还未见报道。本研究通过转录组测序和功能注释共鉴定到38个unigene涉及黄酮类化合物生物合成途径的关键基因,其中5个编码CHS,2个编码CHI,3个编码FLS。转录因子能够结合到基因上游的DNA结合域,从而对基因的表达起抑制或增强的作用。Huang等[23]在紫皮柚中鉴定到MYB类转录因子CgRuby1可以激活花青苷合成的结构基因CgF3'H和CgDFR的转录表达促进花青苷的合成。本研究在龙脷叶中还鉴定到56个unigene编码 MYB转录因子。这些代谢通路和转录因子的发现为揭示龙脷叶次级代谢物的生物合成途径和调控机制提供了基础数据。

表1 类黄酮生物合成相关的候选基因数量Table 1 Summary of candidate genes related to flavonoids biosynthesis

4 结论

本研究利用高通量测序技术获得了龙脷叶的转录组特征,通过不同组织合并de novo组装共获得46 600个unigene,其中34 188(73.36%)个unigene在公共数据库中获得功能注释。同时,在龙脷叶中还鉴定到1 256个转录因子、3 942个R基因和3 356个SSRs。KEGG代谢通路分析表明共有6 902个unigene涉及参与萜类、黄酮类、脂质等132条代谢途径,通过功能注释筛选到56个unigene涉及类黄酮生物合成、9个unigene参与类黄酮和类黄酮生物合成,2个unigene参与异黄酮生物合成。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!