藜麦SPP 基因家族全基因组鉴定及表达模式分析

时间：2024-05-24

陈紫岩，林参,2，尹航，张豪杰，魏真真，余希文，吴传万*，李茹

（1.江苏徐淮地区淮阴农业科学研究所，江苏淮安 223000；2.江苏天丰种业有限公司，江苏淮安 223000；3.四川省农业科学院植物保护研究所，四川成都 610066；4.苏州市农业科学院，江苏苏州 215000）

蔗糖是高等植物光合作用的主要最终产物，同时其作为主要形式参与植物体内碳水化合物的长距离运输［4］。蔗糖代谢在植物对非生物胁迫（如干旱、高温等胁迫）中扮演重要角色，对植物生长和产量形成有重要影响［5］。高等植物中蔗糖的生物合成由2步反应组成：第一步蔗糖磷酸合成酶（Sucrose Phosphate Synthase，SPS；EC 2.4.1.14）催化尿苷二磷酸葡萄糖和6-磷酸果糖形成蔗糖-6-磷酸；第二步则是磷酸蔗糖磷酸酶（Sucrose Phosphate Phosphatase，SPP；EC 3.1.3.24）进一步水解蔗糖-6-磷酸形成蔗糖［6］。人们在对于SPP基因的研究日益深入的同时，对于SPP家族基因报道却少之又少［7］。前期的研究已经证明，SPP相关家族基因可以影响光合碳在不同储能物质间的分配［8］。2005年，研究者用RNAi技术降低烟草中SPP基因的表达水平，结果显示随着SPP基因表达水平的下降，植株中各类糖的含量大幅下降［9］。作为蔗糖合成的关键基因，有关SPPs参与藜麦发育的研究十分欠缺。

为了进一步研究调控藜麦蔗糖代谢的分子机制，本研究利用藜麦基因组数据库，首先鉴定出SPP基因家族全部4个成员，然后对其蛋白的理化性质、模体、启动子元件、基因结构、进化以及表达模式等进行了分析，以期为后续的藜麦育种工作提供新的思路。

1 材料与方法

1.1 藜麦SPP基因家族成员的鉴定

通过藜麦基因组数据库（https://www.cbrc.kaust. edu.sa/chenopodiumdb）下载藜麦基因组数据及注释文件。从Pfam数据库（http://pfam.xfam.org）下载S6PP结构域（PF05116）和S6PP_C结构域（PF08472）的隐马尔科夫模型（.hmm）文件［10-11］，并通过HMMER软件对藜麦的蛋白序列进行比对，获得同时拥有S6PP结构域和S6PP_C结构域的候选序列。手动剔除冗余序列后，将获得的候选序列提交至NCBI网站的CDD软件（https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi）进行结构域验证。

1.2 藜麦SPP基因蛋白的二级结构和理化性质分析

使用在线分析网站SOPMA（https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page= npsa_sopma.html）对藜麦SPP蛋白序列进行二级结构分析［12］。使用ExPASy 网站的在线预测工具（https://web.expasy.org/protparam/）对藜麦SPP家族成员蛋白质的分子量、理论等电点和亲水性等理化性质进行预测［13］。

1.3 藜麦SPP基因的亚细胞定位和跨膜结构域预测

使用在线工具PlantmPLoc（http://www.csbio.sjtu.edu.cn/cgi-bin/PlantmPLoc.cgi）进行亚细胞定位预测［14］。使用在线工具TMHMM-2.0（https://services.healthtech.dtu.dk/）进行蛋白跨膜结构域预测［15］。

1.4 藜麦SPP家族染色体定位、基因结构和蛋白保守基序分析

利用TBtools对CqSPP家族的染色体定位及基因结构进行可视化处理，处理后得到图片［16］。利用MEME（https://meme-suite.org/meme/doc/meme.html?man_type=web）网站对SPP家族的蛋白保守基序进行分析，获得的结果用TBtools进行可视化［17］。

1.5 6个物种SPP基因家族的系统发育分析

为了阐述藜麦SPP基因家族各成员的系统进化关系，将获得的6个物种（拟南芥、番茄、藜麦、水稻、高粱和玉米）的基因的候选序列存为Fasta格式，使用ClustalW软件对其进行氨基酸序列比对，然后利用软件MEGA 7.0 将多序列比对结果选用邻接法（neighbor-joining, NJ）构建系统发育树，其中bootstrap设置为1000，其余参数设置为默认参数。

1.6 藜麦SPP基因启动子分析

取各成员基因序列中转录起始点上游2000 bp序列，将其储存为Fasta格式，使用PlantCARE进行顺式转录元件预测。预测结果用TBtools进行可视化。

两组在进行治疗过后,临床症状都得到一定改善,但观察组的改善程度高于对照组,据统计观察组的有效率为96.00%,对照组有效率为76.00%,两组差异具有统计学意义(P<0.05),详见表1。

1.7 藜麦SPP基因表达的组织特异性分析

藜麦花、叶片、种子、幼苗和茎的RNA-seq数据下载于NCBI转录组数据库（项目号：PRJNA 394651），以此来分析藜麦各组织的表达情况［18］。使用TBtools软件绘制藜麦SPP基因表达的热图（表达量取log2FPKM 值）。

1.8 藜麦SPP基因在逆境胁迫下的表达

供试藜麦品种为苏藜1号。对出苗30 d的藜麦幼苗进行逆境胁迫处理，设置3种试验处理：T1为幼苗喷施5.0 mg/L ABA后置于常温下种植；T2为将幼苗置于4 ℃培养箱中模拟冷处理；T3为幼苗喷施200 mmol/L浓度甘露醇模拟干旱处理。处理48 h后，取叶片进行qPCR检测，内参选取藜麦基因EF1-a，引物信息见表1。设3次重复，试验数据用2-ΔΔCt法处理。试验完成后，用Graphpad 8.0软件绘制柱状图。

表1 qPCR试验中用到的引物信息

2 结果与分析

2.1 藜麦SPP基因家族全基因组鉴定及编码蛋白基本理化性质分析

通过Hmmer软件从藜麦基因组中共鉴定到4个SPP家族成员，按隐马尔科夫模型匹配度分别命名为CqSPP1、CqSPP2、CqSPP3和CqSPP4 （表2）。其氨基酸数目在399~623之间；分子量介于45.24 ~70.77 kDa之间；理论等电点在5.64~6.93之间，均小于7，显酸性；不稳定指数介于35.25~41.73，除CqSPP3外均为大于40的不稳定蛋白。利用ProtScale在线工具分析藜麦SPP蛋白氨基酸序列的亲/疏水性，发现4个SPP家族蛋白均有多个达-2以下的亲水峰，且大于1的疏水峰较少，同时每个SPP家族蛋白亲水性氨基酸数量多于疏水性氨基酸数目，因此判断藜麦SPP家族蛋白表现为亲水性（图1）。

图1 藜麦SPP蛋白的亲水性预测结果

表2 藜麦SPP基因家族成员的基本信息和理化性质

2.2 藜麦SPP基因家族蛋白序列的结构分析

利用在线网站Swiss-model和SOPMA对藜麦SPP蛋白序列进行结构建模与分析，结果（图2、表3）显示，藜麦SPP基因家族蛋白都含有α-螺旋、β-转角、无规则卷曲及延伸链等部分，但各部分所占比例明显不同。藜麦SPP蛋白主要由无规则卷曲以及α-螺旋组成，两者之和超过空间结构总数的70%；其次为延伸链，而β-转角所占比例最低，在4个蛋白中占比均不超过10%。

表3 拟南芥、番茄、水稻、高粱和玉米SPPs的命名

图2 藜麦SPP蛋白三维结构的预测结果

表3 藜麦SPP蛋白的二级结构 %

2.3 藜麦SPP基因家族染色体定位分析

利用TBtools软件绘制基因在染色体上的位置（图3），4个CqSPP基因分别定位于4条不同的染色体上。

图3 藜麦SPP基因家族染色体定位结果

2.4 藜麦SPP基因家族蛋白亚细胞定位及跨膜结构域分析

通过在线软件Plant-mPLoc对藜麦SPP基因家族4个成员的氨基酸序列进行亚细胞定位预测。结果显示，除了藜麦SPP2蛋白预测结果为不确定外，其余蛋白主要定位在叶绿体上（表4），这与预测的调控蔗糖合成功能是相吻合的。利用TMHMM在线工具对藜麦SPP蛋白的跨膜结构进行分析，结果表明藜麦SPP家族蛋白中只有CqSPP4蛋白存在跨膜结构域。

表4 藜麦SPP基因亚细胞定位及蛋白跨膜结构域预测

2.5 藜麦SPP家族的基因结构和模体分析

利用TBtools对CqSPP家族的基因结构作图（图4），结果显示，4个CqSPP基因均由外显子和内含子组成，并且每个基因所含的数量各不相同。其中CqSPP4的外显子数量最多，为11个，内含子数量为10个。对CqSPP家族模体分析发现（图5、图6）,4个CqSPP蛋白均有8个排列顺序相同的模体，CqSPP1、CqSPP2、CqSPP这3个蛋白在模体2之前多了1个模体9，CqSPP3和CqSPP4蛋白在模体8后面多了1个模体10。

图4 藜麦SPP基因家族的基因结构

图5 藜麦SPP基因家族的模体

图6 模体信息

2.6 藜麦SPP系统发育分析

为了分析CqSPP与其他植物SPP基因（表5）之间的进化关系，我们构建了藜麦SPP家族与其他物种SPP基因的进化树（图7），结果表明，植物SPP基因可分为5个组，4个CqSPP成员被聚类到2个组，其中CqSPP1和CqSPP2被聚类到第5组（该家族包含最多的SPP成员），这2个基因与拟南芥AtSPP1、AtSPP2以及AtSPP3a的亲缘关系最近；CqSPP3和CqSPP4被聚到第4组，其与拟南芥AtSPP3b聚类在一起。系统发育树显示藜麦SPP家族基因与拟南芥相关基因的亲缘关系更接近。

图7 SPP基因家族的进化树

2.7 藜麦SPP基因启动子上顺式转录元件分析

本研究根据公开的基因组数据，获取SPP各成员转录起始点上游2000 bp的序列进行分析（图8）。结果表明，各成员启动子上均有多个与逆境响应相关的顺式转录元件，如MYB、MYC、G-BOX等。从数量上来看，CqSPP4启动子上的逆境响应转录元件明显比其他成员要多，这也预示着CqSPP4可能与其他成员有着完全不同的逆境响应模式。

图8 SPP基因的启动子分析结果

2.8 藜麦SPP基因的表达模式分析

本研究利用藜麦的RNA测序数据分析藜麦SPP基因的表达模式。以热图（Heatmap）表示CqSPP基因在5个不同部位的表达情况。CqSPP家族基因表达模式迥异（图9）。CqSPP1在所有测试组织中的表达量均较高，而CqSPP4的表达量则相对较低。CqSPP1、CqSPP2和CqSPP3这3个基因表现出相同的表达模式，即在种子（Seed）中表达量最高，这可能与SPP家族基因主要控制蔗糖合成的功能有关。

图9 藜麦CqSPP基因在不同组织中的表达模式

2.9 藜麦SPP基因在逆境胁迫下的表达

本研究分析了藜麦SPP基因在ABA处理、低温处理和模拟干旱处理下叶片的表达水平（图10），结果显示：藜麦叶片中的SPP基因在受到不同胁迫时，表现出不同的响应模式。SPP家族基因在受到ABA胁迫时，表达量均有所下调。而当受到冷害胁迫时，CqSPP1和CqSPP2的表达量上调，CqSPP4的表达量下降，CqSPP3的表达量并未发生明显变化。在模拟干旱实验中，CqSPP1和CqSPP3的表达量下降，CqSPP2和CqSPP4则表现为上调。

图10 藜麦CqSPP基因在不同逆境胁迫下的表达量

3 讨论

2017年藜麦高质量基因组数据的公布，为藜麦基因家族鉴定、功能基因挖掘和研究提供了便利。本研究通过生物信息学分析，共鉴定出4个藜麦SPP蛋白，多于已报道的水稻、玉米等作物的［19-20］。在4个藜麦SPP蛋白中，CqSPP1、CqSPP2、CqSPP3拥有类似的分子量等理化性质，而CqSPP4则显得有些特殊：其序列长度、分子量比其他的家族成员均更长、更大，但在各组织中的表达水平上明显低于其他成员。这可能是因为家族成员在执行功能上存在一定的分化。除CqSPP2外，其余SPP基因家族成员亚细胞定位均位于叶绿体上，这与在玉米、甜菜等作物上的研究结论定位在细胞质上有所不同［21］。这意味着藜麦SPP家族成员在调控蔗糖合成时与其他植物的功能模式并不相同。

对系统进化树进行分析发现，源自6种植物的17个SPP家族基因被分为1~5组。其中第1、2组包含单子叶植物水稻、玉米和高粱，第3~5组为双子叶植物藜麦、拟南芥和番茄。这样的结果证实了被子植物自单双子叶分化后，SPP家族发生了基因的扩张。同时，在结构上有着相似保守基序的序列分布在同一支上，从侧面也证明了本研究所建系统发育树的可靠性。

通过分析藜麦SPP基因家族在不同组织中的表达数据，发现藜麦SPP家族的基因在花、叶、种子、苗期和茎中均有表达，并且在种子中的表达量高于其他部位。这样的结果与先前其他植物的报道类似，也从侧面验证了SPP家族调控种子蔗糖合成的重要作用。同时，CqSPP1基因的表达量明显高于其他家族成员，推测其在调控蔗糖合成中发挥重要作用。

植物的蔗糖合成受不同的内、外在因素的影响。本研究分析藜麦SPP家族各成员的启动子序列发现，在转录起始点上游存在大量与环境响应有关的顺式转录元件，这预示着各成员的表达可能受外界环境的影响。随后对藜麦幼苗进行了不同类型的胁迫处理，发现：在受到ABA的影响后，SPP基因均表现出表达量下调的情况，这与脱落酸影响植物光合作用的认知是相符的。而当幼苗受到低温和干旱影响时，SPP基因家族成员表现出各不相同的响应模式，这从侧面说明了SPP基因在执行生物学功能上并不完全相同。后续拟通过过表达、基因敲除以及染色质共沉淀等体内、外的验证方式更加深入地研究该基因家族成员的功能。