当前位置:首页 期刊杂志

桑树WRKY转录因子的全基因组鉴定及生物信息学分析

时间:2024-05-25

刘潮 韩利红 宋培兵 王德琴 王海波 唐利洲

摘要:[目的]明确桑树基因组中WRKY转录因子家族结构及其功能特征,为进一步揭示WRKY转录因子家族生物学功能提供科学依据。[方法]利用生物信息学方法对桑树WRKY转录因子的数目、类型、结构、系统进化关系、保守结构域和密码子使用偏性等进行全面分析。[结果]基于桑树全基因组蛋白数据库,共鉴定出55个桑树WRKY转录因子家族基因,占桑树基因总数(29261)的1.88%。桑树WRKY转录因子存在6种内含子数量类型及15种内含子相位类型,其中27个基因含有2个内含子,25个基因的相位类型为2-2型。保守结构域系统进化分析结果显示,桑树WRKY转录因子家族蛋白主要分为三大类(Ⅰ、Ⅱ和Ⅲ),I类可分为IN和Ic两个亚组,Ⅱ类根据聚类情况又可分为Ⅱa、Ⅱb、Ⅱc、Ⅱd和Ⅱe等5个亚组。桑树WRKY转录因子蛋白保守结构域分析发现有五类Motif的保守性较强,桑树WRKY转录因子蛋白中均包含c端Motif 1,I类蛋白同时含有N端Motif 3。桑树WRKY转录因子家族基因启动子区富含PBF(C2H2锌指因子)和AHL(拟南芥hook因子)元件。密码子使用偏性分析结果显示,桑树WRKY转录因子家族基因的有效密码子数(ENC)介于48.00-60.00,密码子第3位GC含量(GC3s)介于0.330-0.722,平均亲水性值(Gravy)均为负值;同义密码子相对使用度(RSCU)>I.000的密码子有29个,且以A(6个)或T(11个)结尾较G(4个)或c(8个)结尾的略多。[结论]桑树WRKY转录因子家族包含55个成员,内含子相位类型一致的同组成员可能来源于同一祖先基因,且与基因复制和基因组重排有关;蛋白序列高度保守,在植物抵御环境胁迫过程中发挥作用;基因密码子使用偏性较弱,主要受碱基突变选择压力影响。

关键词:桑树;WRKY转录因子;密码子使用偏性;系统进化;生物信息学

0引言

[研究意义]WRKY转录因子家族是仅存于高等植物中的一类锌指蛋白,参与植物的生长发育,能对环境胁迫和病原侵染作出响应。首先,WRKY转录因子蛋白在植物免疫反应中发挥重要作用,是植物免疫系统各通路的中心组件,包括MTI、PTI、ETI、基本防御及系统获得抗性(Birkenbihl et al.,2016)。其次,WRKY转录因子在植物的应激反应中也起关键作用,其网络涉及生物和非生物胁迫的各组成部分(Eulgem,2006;Zhu et al.,2013)。WRKY转录因子家族基因过表达能增強植物对盐和干旱胁迫的耐受性,同时增强抗病性(Oiu and Yu,2009)。此外,WRKY转录因子还在植物种子发芽、衰老及其他发育反应中发挥重要作用(Rushton et al.,2010;Verweij et al.,2016)。密码子使用偏性是指各种生物体偏爱使用三联密码子(编码相同氨基酸的同义密码子)的现象,普遍存在于生物界中,且物种的亲缘关系越近密码子使用偏性越相似;密码子使用偏性还与基因表达、蛋白质功能等密切相关。因此,研究密码子使用偏性对开展基因进化压力研究、基因表达水平预测及外源基因改良等均具有重要意义。[前人研究进展]WRKY转录因子家族含有60个高度保守的氨基酸WRKY功能域,包含N端的WRKYGQK保守的氨基酸和C端非典型的锌指结构(Rushton et al.,2010)。根据WRKY结构域数量和锌指结构氨基酸组成的不同,可将WRKY转录因子家族蛋白分为三大类:第1类含有2个WRKY结构域,具有Cys2-His2型(CX46CX22-23HX1H)锌指结构;第Ⅱ类和第Ⅲ类仅含有1个WRKY结构域,其中第Ⅱ类的锌指结构与第1类的类似,第Ⅲ类的锌指结构为Cys2-His-Cys型(CXvCXE3HTC),根据保守氨基酸残基的差异,第Ⅱ类又可分为5个亚类(Eulgem et al.,2000)。至今,已有多种植物WRKY转录因子家族基因被鉴定(Wu et al.,2005;Ross et al.,2007;Ling et al.,2011;Huang et aL,2012;Dmg et aL,2015;Song et al,2016;Zhang et al.,2016),并证实WRKY转录因子家族参与植物的多种生理生化过程,包括衰老(zhang et al.,2016)、纤维发育(Ding et al.,2015)、生物和非生物胁迫(Song et al.,2016;Wei et al.,2016)等。不同物种或同一物种不同基因问的密码子使用偏性不同,与基因在进化过程中所面对的选择压力不同有关。物种在进化过程中受基因突变压力和自然选择压力的双重影响,但由于二者在基因进化过程中所发挥作用的权重不同,导致密码子使用偏性具有物种特异性(赵洋等,2016;曲俊杰等,2017)。密码子使用偏性与GC含量有关时表示受突变压力影响(Chen et al.,2004),与翻译过程有关时表示受正向选择压力影响(Sharp et al.,2010)。因此,通过优化密码子可提高外源基因在寄主细胞中的表达水平(周宗梁等,2012;Zelasko et al.,2013)。[本研究切入点]桑树(Morus notabilis)是一种常见的落叶乔木,其叶片是桑蚕的主要饲料,桑皮可用作造纸原料,桑果可供食用或酿酒,在我国多个省份均有栽培,但目前针对桑树WRKY转录因子基因及其蛋白的研究鲜见报道。[拟解决的关键问题]在桑树基因组测序工作的基础上,利用生物信息学方法全面预测分析桑树基因组中WRKY转录因子家族结构及其功能特征,为进一步揭示WRKY转录因子家族生物学功能提供科学依据。

1材料与方法

1.1蛋白序列获取与鉴定

桑树全基因组蛋白序列从GenBank数据库中搜索获得,以拟南芥WRKY转录因子蛋白序列为探针,在桑树全基因组蛋白数据库中进行BLASTp同源序列比对分析,通过NCBI在线工具CDD(https://www.ncbi.nlm.nih.gov/cdd)和Pfam数据库(http://pfam.xfam.org/)进行蛋白结构域分析,并剔除无WRKY结构域的蛋白序列。

1.2基因及其蛋白结构分析

从NCBI中获得桑树WRKY转录因子基因序列和CDS序列,使用基因结构显示系统(http://gsds.cbi.pku.edu.cn/index.php)绘制基因结构示意图;通过MEME SUITE(http://meme-suite.org/tools/meme)預测桑树WRKY转录因子蛋白序列保守氨基酸Motif,参数设为默认值。

1.3基因启动子区特征分析

通过GenBank数据库获取桑树WRKY转录因子家族基因转录起始位点上游的2 kb序列,以JASPAR(http://iaspar.genereg.net/)数据库分析启动子区富含转录调控基序。选择植物启动子基序数据库作为搜索数据库,相对阈值分数选择100%。

1.4蛋白系统进化分析

所有桑树WRKY家族蛋白通过Clustal x进行比对分析,选取WRKY和锌指结构域保守序列,采用MEGA 5.0中的NJ(Neighbor-jioining)法构建系统发育进化树,参数选择Bootstrap为1000。系统发育进化树的绘制与优化使用Itol在线工具(http://itol.embl.de/)完成。

1.5基因密码子使用偏性分析

利用CodonW 1.4.4对桑树WRKY转录因子家族基因CDS序列密码子的使用偏性进行分析,包括密码子适应指数(CAI)、有效密码子数(ENC)、密码子第3位GC含量(GC3s)和平均亲水性值(Gravy)等参数。以GC3s为横坐标、ENC为纵坐标绘制ENC-plot图谱。图谱中的曲线为ENC预期值,表示密码子使用偏性仅由碱基组成决定,计算公式为:ENC=2+GC3s+29/[GC3s2+(1-GC3s)2]。分布点越靠近标准曲线表示密码子使用偏性受碱基突变影响越大,越远离标准曲线表示密码子使用偏性受自然选择影响越大。使用EMBOSS explorer网站(http://emboss.toulouse.inra.fr/)在线软件Cusp对同义密码子的相对使用度(Relative synonymous codon usage,RSCU)进行分析。

2结果与分析

2.1桑树WRKY转录因子家族成员鉴定及其序列分析结果

基于桑树全基因组蛋白数据库,经BLASTp同源搜索和SMART保守结构域鉴定,共获得55个桑树WRKV~录因子基因(表1),占桑树基因总数(29261)的1.88%。其中,蛋白氨基酸残基数小于300 aa的基因序列占24%,介于300-650 aa的基因序列占71%,大于650 aa的基因序列占5%。

桑树WRKY转录因子家族基因存在6种内含子数量类型(图1)。其中,有27个基因含有2个内含子,为数量最多的类型;有10个基因含有4个内含子;WRKY9基因的内含子数量达14个,为内含子数量最多的类型。桑树WRKY转录因子家族基因内含子相位类型有15种,呈多样性。其中,有25个基因的内含子相位为2-2型,是基因数量最多的类型;有6个基因的内含子相位为2型。进化组Ⅰ和进化组Ⅱc中的基因内含子数量和相位类型较多样,说明组内基因来源较复杂;进化组Ⅱa、进化组Ⅱb、进化组Ⅱd、进化组Ⅱe和进化组Ⅲ中的基因结构和内含子相位类型高度一致,内含子相位为2—2型,可能是由同一祖先基因复制而来。

2.2桑树WRKY家族蛋白的系统进化分析结果

利用MEGA 5.05对72个拟南芥WRKY转录因子蛋白和55个桑树WRKY转录因子蛋白的保守结构域序列进行系统进化分析,结果显示,桑树WRKY转录因子蛋白主要分为三大类(Ⅰ、Ⅱ和Ⅲ),其中,第Ⅰ类根据WRKY保守结构域处于N端或C端,可分为ⅠN和ⅠC两个亚组;第Ⅱ类根据聚类情况又可分为Ⅱa、Ⅱb、Ⅱc、Ⅱd和Ⅱe等5个亚组(图2)。但MnWRKY49和MnWRKYlC未归入以上分组。

2.3桑树WRKY转录因子蛋白保守结构域分析结果

使用MEME SUITE对桑树WRKY转录因子保守氨基酸Motif进行分析,结果发现有五类Moti啪保守性较强,其正则表达式如图3所示。其中,Motif 1是WRKY Motif,在桑树WRKY转录因子家族中高度保守;Motif 3为进化组I N端的WRKY保守结构域;Motif 2为锌指结构,仅MnWRKY28、MnWRKY43和MnWRKY54缺少该结构域。55个WRKY转录因子蛋白均具有Motif 1,所有I类基因蛋白均具有Motif 1和Motif 3。Motif 4为未知结构域,Motif 5为LXsLXgLX3L基序,类似LRR结构域,进化组I、进化组Ⅱa和进化组Ⅱc的基因蛋白结构包含Motif4,进化组Ⅱa、进化组Ⅱb和进化组Ⅲ的基因蛋白结构包含Motif 5。部分桑树WRKY转录因子保守结构域和锌指结构存在变异,如进化组Ⅱc中MnWRKY50和MnWRKY51的保守结构域为WRKYGKK,MnWRKY28和MnWRKY54的锌指结构缺少CX.sCX22.23部分,进化组Ⅲ中MnWRKYl9和MnWRKY23的锌指结构分别为CX7CX23HRC和CX7CX23HIC,保守氨基酸残基发生变异。

2.4桑树WRKY转录因子家族基因启动子区特征分析结果

桑树WRKY转录因子家族基因启动子区均含有PBF结合元件(AAAGC),每个基因启动子平均含有4.8个元件(表2),PBF属于Dof家族C2H2锌指因子类,有助于bZIP转录因子结合DNA(Vicente-Carb aiosaet al.,1997);另外两种C2H2锌指因子类(DOF2.4和DOF5.3)含量也较高。55个桑树WRKY转录因子家族基因中有28个基因的启动子区含有AHL20结合元件(AATTAAAT),AHLl2与AHL20转录因子均属于拟南芥hook因子,能特异性结合与核基质附着相关且富含AT的DNA序列,通过下调PAMP引发的NH01和FRKl可负调控植物对病原菌的先天性免疫作用(Lu et al.,2010)。此外,部分桑树WRKY转录因子家族基因启动子区含有bZIP、ERF、GT-1、MYB、TGA和WRKY转录因子结合序列。

2.5桑树WRKY转录因子家族基因密码子使用偏性分析结果

为了解桑树WRKY转录因子家族基因密码子使用偏性,对ENC、GC3s和Gravy等参数进行分析,结果发现,桑树WRKY转录因子家族基因ENC介于48.00-60.00,GC3s介于0.330-0.722,Gravy均为负值(表3),表明桑树WRKY轉录因子蛋白均为亲水性蛋白,且多数具有强亲水性。

ENC与GC3s的关联分析结果显示,基因分布越靠近ENC-plot图谱标准曲线表示密码子使用受碱基突变压力影响越大,基因分布在标准曲线下方或远离曲线,表示基因受自然选择压力影响越大。GC3s分布则反映植物所受的选择压力,GC3s分布越广泛,表明密码子使用偏性受碱基突变压力越大,GC3s分布范围越小,表明密码子使用偏性受正向选择压力影响越大(Kawabe and Mivashita,2003)。由图4可知,桑树WRKY转录因子家族基因的GC3s介于0.330-0.722,分布较广泛,且多数基因ENC分布在标准曲线下方,表明桑树WRKY转录因子家族基因同时受到碱基突变和正向选择压力的影响。

RSCU是同义密码子实际使用量与理论使用量的比值。RSCU>1.000,表示密码子使用频率高于其他同义密码子;反之则使用频率低。由表4可知,RSCU>I.000的密码子有29个,且以A(6个)或T(11个)结尾较G(4个)或C(8个)结尾的略多,说明桑树WRKY转录因子家族基因的密码子使用偏性较弱,略偏好A或T结尾。

3讨论

WRKY转录因子蛋白为植物特有转录因子家族,广泛参与植物多种生物学进程的调控。至今,多个已完成基因组测序植物的WRKY转录因子家族基因被鉴定,番茄基因组中有81个WRKY转录因子家族基因(Wu et al.,2005),黄瓜有55个WRKY转录因子家族基因(Ross et al.,2007),大豆有176个WRKY转录因子家族基因(Ling et al.,2011),棉花有113个WRKY转录因子家族基因(Huang et al.,2012),粳稻有98个WRKY转录因子基因(周宗梁等,2012),拟南芥有72个WRKY转录因子家族基因(Zelasko et al.,2013),苹果有132个WRKY家族基因(谷彦冰等,2015)。Baranwal等(2016)研究发现,桑树基因组中含有54个WRKY转录因子基因。同一家族基因的数量与植物进化过程中基因复制、基因组重排等有关,如水稻、番茄、苹果和棉花的WRKY转录因子家族均存在基因复制现象(Wu et al.,2005;Huang et al.,2012;周宗梁等,2012),但在WRKY转录因子数量较少的黄瓜中未发现基因复制现象(Ross et al.,2007)。WRKY转录因子基因数目除了与物种基因组有关外,还与植物进化过程中所受的环境压力有关。本研究结果显示,桑树WRKY转录因子家族基因数量为55个,属于WRKY转录因子家族基因相对较少的物种类型,说明进化过程中该家族基因受到的环境压力较小。

基因结构中内含子数量及相位类型是研究基因进化的重要证据。根据剪接中位置的不同,内含子分为3种相位类型,0型内含子位于2个密码子之间,1型内含子位于密码子的第1和第2碱基之间,2型内含子位于密码子的第2和第3碱基之间(Sharp,1981)。内含子相位的改变会导致后续阅读框发生变化,因此内含子的相位通常比较保守。本研究中,桑树WRKY家族蛋白主要分为三大类(Ⅰ、Ⅱ和Ⅲ),且有2个蛋白(MnWRKY49和MnWRKYlC)未进行分组,与Baranwal等(2016)将桑树WRKY转录因子家族分为四类的研究结果基本一致。本研究还发现,同一进化组的基因结构内含子数量和相位类型高度一致,进化组Ⅱa和进化组Ⅱb的内含子相位类型全部为0型,进化组Ⅱd、进化组Ⅱe和进化组Ⅲ全部为2型。约50%桑树WRKY转录因子家族基因包含2个内含子,其中有25个基因的内含子相位为2-2型,分别属于进化组Ⅱc、进化组Ⅱd、进化组Ⅱe和进化组Ⅲ,推测其来源于共同的祖先基因。

本研究的系统进化分析结果显示,桑树WRKY家族蛋白主要分为三大类,Ⅱ类又分为5个亚组。所有成员均含有保守基序WRKYGQK(MnWRKY50和MnWRKY51为WRKYGKK外),Ⅰ类和Ⅱ类还包含有保守的锌指结构C2H2(除MnWRKY28和Mn-WRKY54缺少外),Ⅲ类的锌指结构为C2HC。Rinerson等(2015)研究认为,植物中WRKY转录因子家族基因存在两种可能的起源方式,一种起源于Ⅰ类蛋白C端WRKY结构域,一种起源于藻类Ⅱa或Ⅱb的某一蛋白结构域。桑树WRKY转录因子蛋白保守结构域分析发现有五类Motif的保守性较强,所有桑树WRKY蛋白中均包含C端Motif 1,Ⅰ类蛋白同时含有N端Motif 3。进化组Ⅱa、进化组Ⅱb和进化组Ⅲ中含有类似LRR结构域的Motif 5。可见,植物WRKY转录因子基因家族结构上高度保守,桑树WRKY转录因子可能起源于I类基因蛋白C端WRKY结构域。

WRKY蛋白特异性结合DNA的最小基序TTGAC(C/T)称作W-box。多数WRKY转录因子的目标基因启动子中均含有数量不定的W-box,彼此间或同向排列或形成回文结构,WRKY转录因子与其结合,而调节下游功能基因或其他转录因子的表达(Eulgem et al.,2000)。一些植物WRKY转录因子家族基因启动子中也存在W-box,如拟南芥WRKYl8启动子中的W-box是起负调控作用的顺式作用元件,能阻止拟南芥WRKYl8在抗病期间的过量表达,从而缓解该基因对植物生长造成的影响(Chen andChen,2002)。多种WRKY转录因子可形成复合物以调控植物的抗病性。Baranwal等(2016)研究发现,桑树WRKY基因上游启动子区富含AAAG、GAAAA和AGAAA等序列。本研究也发现桑树WRKY转录因子家族基因启动子区的AAAGC、AAAAAGT和GAAAAAG数量较多,且部分桑树WRKY转录因子家族基因启动子区含有bZIP、ERF、GT-1、MYB、TGA和WRKY转录因子结合序列,而这些转录因子大多与逆境胁迫有关。

桑树WRKY转录因子家族基因同时受碱基突变和正向选择压力的影响,其中以碱基突变选择压力占主导地位。基因密码子使用偏性与植物基因组组成及其所处的胁迫环境有直接关系(宋辉等,2015)。双子叶植物偏好A/T结尾的密码子,单子叶植物偏好G/C结尾的密码子(Tatarinova et al.,2010),偏性强的基因偏好使用G/C结尾的密码子(Gu0 et al.,2007)。桑树属于双子叶植物,虽然RSCU>1.000的密码子中以A/T结尾的略多,但密码子使用偏性并不强,多数属于低表达基因。Baranwal等(2016)研究发现,桑树WRKY转录因子家族基因表达具有器官特异性,在54个WRKY转录因子家族基因中有13个基因在根部表达,25个基因在树皮中表达,10个在雄蕊中表达,但总体来看,检测到的表达基因数目较少,基因相对表达倍数不高。这在本研究中得到进一步证实,即桑树WRKY转录因子家族基因密码子使用偏性较弱。

4结论

桑树WRKY转录因子家族包含55个成员,内含子相位类型一致的同组成员可能来源于同一祖先基因,且与基因复制和基因组重排事件有关;蛋白序列高度保守,多数含有完整的WRKYGQK和锌指结构,在植物抵御环境胁迫过程中发挥作用;基因密码子使用偏性较弱,主要受碱基突变选择压力影响,多数属于低表达基因,表明桑树受环境胁迫压力较小。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!