西门塔尔牛饱和脂肪酸含量的低密度芯片基因组预测

时间：2024-07-28

齐　欣，张静静，2，樊惠中，李　娟，胡　鑫，3，刘　飞，4，朱　波，高　雪，陈　燕，张路培，高会江，李俊雅*

(1.中国农业科学院北京畜牧兽医研究所，北京 100193； 2.吉林农业大学动物科技学院，长春 130118；3.内蒙古民族大学动物科学技术学院，通辽 028000； 4.河北农业大学动物科技学院，保定 071000)

齐欣1，张静静1，2，樊惠中1，李娟1，胡鑫1，3，刘飞1，4，朱波1，高雪1，陈燕1，张路培1，高会江1，李俊雅1*

旨在探索低密度芯片标记的筛选方法并评估不同低密度芯片的准确性。本研究采用BovineHD高密度芯片，检测西门塔尔牛基因组的SNP位点及其与饱和脂肪酸含量的关联性，根据P值或效应值筛选标记构成低密度芯片，使用IBS聚类分组和随机分组进行交叉验证，估计基因组育种值并评估其准确性。结果表明，在14号染色体的MYC基因附近有5个位点与饱和脂肪酸性状显著相关，可考虑作为西门塔尔牛脂肪酸含量的候选基因进行后续研究。根据P值筛选标记并使用IBS聚类分组进行交叉验证时，估计基因组育种值准确性最高，芯片密度达到7K时准确性趋于稳定。因此，本研究发现的标记位点可能对西门塔尔牛的脂肪酸含量存在一定影响，并且为低密度芯片标记位点的筛选提供参考资料。

全基因组关联分析；基因组选择；低密度芯片；SNP；西门塔尔牛

近年来快速发展的高通量测序技术为基因组选择[1]提供了便利，基因组选择可以在畜禽出生前或者生长初期预测个体的育种值，有效缩短世代间隔[2-3]。但是，对于世代间隔过短且种用价值较低的畜禽，如猪、鸡、羊等，由于高密度基因分型成本较高，阻碍基因组选择的实施。因此，研究者提出使用低密度芯片降低分型成本，以充分发挥基因组选择在应用中的优势[4]。

D.Habier等于2009年首次提出利用基因共分离信息及低密度芯片进行基因组预测的方法，研究表明，对候选个体的父母进行高密度芯片检测，可提高候选个体估计育种值的准确性[5]。许多研究者对此问题进行讨论，但不同方法的表现受到群体结构、性状特征等因素的影响[6-7]。R.Wellmann等对筛选低密度芯片在皮特兰猪实际群体中进行研究，认为低密度芯片具有一定可行性[8]。

饱和脂肪酸摄入过高会导致血胆固醇、三酰甘油、LDL-C升高，增加患冠心病的风险。为提供迎合健康需求的畜产品，我们展开对牛肉脂肪酸含量的研究。本研究选取821头肉用西门塔尔牛，基于BovineHD高密度芯片，针对饱和脂肪酸含量性状进行全基因组关联分析，筛选低密度芯片标记并探索低密度芯片在基因组预测中的应用。

1　材料与方法

1.1试验动物

本课题组于2008年在内蒙古锡林郭勒盟乌拉盖管理区构建资源群体，现项目户已达到15家牧场，基础母牛总数已超过2 000头，所用西门塔尔种公牛数已达 35头。将5～9月龄的犊牛运送至北京金维福仁牧场，统一饲养管理并集中育肥，在生长至10～14月龄后进行分批屠宰。在屠宰前一周静脉采血40 mL左右，与ACD抗凝剂混匀于50 mL离心管，-80 ℃保存。胴体排酸24 h后分批分割，取12～13肋间眼肌为样本进行后续分析。育肥及屠宰期间，试验动物均未表现任何疾病症状，牛胴体及鲜肉分割严格按照国家标准GB/T 27643-2011《牛胴体及鲜肉分割》执行。

1.2脂肪酸含量测定

脂肪酸含量使用取样眼肌，按照国标GB/T 22223-2008要求，参考P.S.Sukhija等的方法[9]，采用水解提取-气相色谱法进行测定：加入内标物十一碳酸甘油三酯的样品经水解-乙醚溶液提取食品中的脂肪，在碱性条件下皂化和甲酯化，生成脂肪酸甲酯，经毛细管气相色谱(GC-2014 CAFsc，日本岛津公司)和内标法定量测定脂肪酸甲酯含量。依据各种脂肪酸甲酯含量和转化系数计算出饱和脂肪酸含量。此后，使用GLM模型来校正表型：

y=μ+Month+Year+e

其中，y为个体饱和脂肪酸含量，μ为群体均值，Month为屠宰月龄，Year为出生年，e为剩余残差。试验中将剩余效应e作为校正后的表型y*，用于后续分析。

1.3DNA提取及770K SNP芯片判型

使用天根试剂盒提取冻存血样中基因组DNA，检验基因组DNA质量：采用NanoDrop紫外分光光度计测量 OD值，A260 nm/A280 nm比值为1.8～2.0判定合格，于-20 ℃冰箱保存。将检测合格的样本进行芯片分析。使用Illumina微珠芯片进行基因分型，利用GenoStedio和Gene Scan 进行初步检测。此后，对SNP进行质量控制，由PLINK 软件实现[10]，按照筛选标准：检出率大于90%，最小等位基因频率大于0.01，哈代温伯格平衡检验P值大于10-6进行筛选。

芯片质量控制前有777 962个标记，质量控制后有677 855个位点，其中删除未落于染色体的标记42 669个，删除检出率过低的位点8 621个，删除最小等位基因频率过低位点42 812个，删除不符合哈代温伯格平衡位点9 041个。

1．4统计分析及位点筛选

使用BayesA 方法计算标记的效应值并估计基因组育种值[1]，假定每个标记都有效应且服从正态分布，标记效应估计模型：

分别根据P值及效应值来筛选位点，组成新的低密度芯片。根据t检验计算P值及利用BayesA方法估计效应值，按照标记的显著性或效应值的绝对值排序，分别选取前1 000、3 000、5 000、7 000、9 000、11 000、13 000、15 000、30 000个位点。使用筛选低密度芯片与校正表型重新估计标记效应值，计算个体基因组育种值(GEBV)：

1.5交叉验证

分别根据同态一致性(IBS)或随机抽取将试验数据分为5组，通过5倍交叉验证来评估GEBV的准确性。在每次预测中，使用4组来估计标记效应值，未用于估计标记效应的剩余一组作为验证群体。预测重复5次，每次的验证群体不同，因此每一个体得到由预测群体(不包括该个体)估计标记效应值计算得出的估计育种值。

IBS聚类分组中，距离矩阵由标记基因型计算的IBS距离组成，由PLINK软件实现。IBS距离矩阵计算公式：fij=∑k[(xi,k-pk)(xj,k-pk)]/[pk×(1-pk)]，其中,fij是动物i和j间的关系，xi,k是动物i第k个标记的基因型，xj,k是动物j第k个标记的基因型，pk是第k个标记的等位基因频率。

准确性是估计基因组育种值(GEBV)与真实育种值(TBV)的皮尔逊相关系数，由于肉牛的群体特异性，使用校正表型代替试验动物的真实育种值。

1.6候选基因

利用Ensembl ( http：//www.ensembl.org/Sus_scrofa/Info/Index)和NCBI (http：//www.ncbi.nlm.nih.gov/)牛参考基因组数据库，搜索关联性显著SNP所在区域的已知基因功能，参考QTLdatabase定位的数量性状基因座位(QTL)，根据基因注释与已知QTL分析候选基因。

2　结　果

图1　Q-Q图Fig.1　Q-Q plot

通过分析及多重假设检验校正，在横坐标为不同染色体，纵坐标为所得P值的负对数的图2中，表明全基因组水平上有1个SNP位点与饱和脂肪酸含量显著关联，6个SNPs与饱和脂肪酸含量潜在显著关联；每个位点的序列号，所在染色体位置，对应的P值及距离最近基因如表1所示。其中5个SNPs落在14号染色体上的MYC基因附近，分别有1个SNP落在8号及22号染色体的TUSC1和ZCWPW2 基因附近。并且，这7个SNPs位点落在10个已知的数量性状基因座位(QTL)上[11-18]，其所在位置详见表2。

根据P值和效应值筛选位点时，大多数低密度芯片在1号染色体上筛选位点最多，占芯片位点数的0.06左右，在28号染色体上筛选位点最少，占位点数的0.01左右；筛选位点数最多及最少的染色体及其对应的比例见表3。

图2　饱和脂肪酸的曼哈顿图Fig.2　Manhattan plot for saturated fatty acid

表1与饱和脂肪酸性状显著关联的SNPs(P<10-6)

Table 1Significant SNPs associated with SFA (P<10-6)

标记SNP染色体Chromosome位置/bpPositionP值P-value基因GeneBovineHD08000059108189781377.12E-07TUSC1BovineHD140000402014139125284.06E-08MYCBovineHD140000402714139306894.27E-07MYCBovineHD140000402814139338454.27E-07MYCBovineHD140000403614139655139.78E-07MYCBovineHD140000403714139720239.78E-07MYCBovineHD22000008732232317358.71E-07ZCWPW2

表2显著SNPs对应的已知数量性状基因座位(QTL)

Table 2QTLs overlapping with significant SNPs

数量性状基因座位性状染色体起始位置/bp终止位置/bpQTLTraitChromosomeStartpositionEndposition4823肌肉pH898146121963675510823大理石花纹816080022198517852548背膘厚89513215412134521332背膘厚141641277191073423408乳脂产量141641277254487233513乳脂产量141641277282173472733乳脂产量1413394919359925173618乳脂率141641277192042823515乳脂率141641277282173472732乳脂率141339491935992517

比较不同低密度芯片估计育种值的准确性(图3)，低密度芯片的标记数目达到7 000(7K)时准确性趋于稳定，在13 000(13K)时准确性最高。根据P值筛选位点并且使用IBS分组时，准确性随芯片密度上升而提高；另两种方法在13K时准确性达到最高，此后准确性略有下降，最大降幅小于0.01。相同位点数目的低密度芯片，根据P值筛选比根据效应值筛选准确性高；使用P值筛选位点时，根据IBS分组的交叉验证比随机分组的准确性要高。其中按照P值筛选位点并根据IBS分组时估计准确性最高。

图3　不同方法估计GEBV的准确性Fig.3　Accuracy of genomic evaluated breeding value

表3筛选位点数最多及最少的染色体及其对应芯片位点总数的比例

Table 3Chromosome containing maximum and minimum number of selected markers and ratio to number of chip markers

芯片Chip染色体1Chromosome比例Ratio染色体2Chromosome比例Ratio染色体3Chromosome比例Ratio染色体4Chromosome比例Ratio1K50.116170.00810.064280.0113K10.072170.00920.059280.0155K10.068170.01210.058280.0147K10.065280.01210.059280.0147K50.065280.0129K10.062280.01010.060280.01511K10.061280.01110.061280.01613K10.061280.01110.062280.01615K10.060280.01110.061280.01530K20.059280.01210.062280.017

上标1，2分别为使用P值筛选位点中含有标记最多和最少的染色体，上标3、4分别为使用效应值筛选位点中含有标记最多和最少的染色体

Superscript 1 and 2 represent chromosomes which are corresponding to selected markers on the basis ofP-value containing maximum and minimum number of markers in low density panels.Superscript 3 and 4 represent chromosomes which are corresponding to selected marker on the basis of effect containing maximum and minimum number of markers

3　讨　论

目前，牛的基因组选择主要使用高密度芯片，但国外已开始使用均匀分布的低密度芯片，且对于猪、鸡等世代间隔较短的动物，低密度芯片具有更广阔的应用前景[8，19]。筛选标记的低密度芯片是由基于性状特征筛选的SNP组成，这些SNP很可能与控制性状的QTL呈紧密连锁或处于高度连锁不平衡状态，因此筛选标记低密度芯片较均匀分布低密度芯片具有更大的优势，已在许多模拟研究中得到证实[5，20]。本研究利用西门塔尔牛试验群体，基于BovineHD高密度芯片进行全基因组关联分析，估计筛选标记低密度芯片的基因组育种值准确性。

本研究发现，14号染色体的MYC基因与饱和脂肪酸含量显著相关，该基因与甲状腺球蛋白基因位于同一条染色体上[21]，它编码多功能的核磷蛋白，参与细胞的生长、凋亡和转变，且与人类白血病、淋巴瘤及多种癌症相关[22-23]。但是其他研究[24-25]发现了3个与脂肪酸含量相关的候选区域：19号染色体上的FASN基因[26-28]、26染色体上的SCD基因[29-30]和29号染色体上的甲状腺激素基因。饱和脂肪酸含量性状属于中低遗传力性状，可能受多基因调控和影响，并且全基因组关联分析的结果受试验群体数量、遗传背景和群体特性的影响。

根据P值和效应值筛选位点的分布与质量控制后的位点基本一致(表3)。高密度芯片在质量控制后，1号染色体含有标记较多，占总标记数的0.063(42 639)，28号染色体含有标记较少，占总标记数的0.018(12 277)；根据P值及效应值筛选位点时，1号染色体中标记分别占芯片标记总数的0.060～0.072和0.058～0.064，28号染色体中标记分别占芯片标记总数的0.010～0.012和0.011～0.017。交叉验证时，根据IBS距离分组比随机分组的准确性更高，因为IBS距离分组提高组内个体的亲缘关系，降低组间个体的亲缘关系，与P.Boddhireddy 等得到的研究结果相一致[31]。Z.Zhang 等的模拟研究表明，在一定条件下根据效应值筛选标记的低密度芯片相较于均匀分布标记具有明显优势[20]，且S.Bolormaa等提出，可以根据P值筛选标记[32]，本研究表明，使用P值筛选位点较使用效应值筛选位点准确性更高。因为根据P值筛选的标记与性状显著相关，与控制性状的QTL呈紧密连锁，因此使用这些位点进行基因组预测能够得到更好的结果。但是这并不意味着筛选标记绝对适合低密度标记基因组选择，因为筛选的标记具有性状特异性，针对特定性状具有相对优势，可进一步考虑多性状的低密度芯片或将均匀分布的标记与筛选标记相结合。

4　结　论

本研究基于BovineHD对西门塔尔牛的饱和脂肪酸含量进行全基因组关联分析，在14号染色体的MYC基因附近定位了5个显著关联的SNPs位点。分别使用按照显著性P值和估计效应值筛选标记的低密度芯片估计基因组育种值，按P值筛选标记时估计基因组育种值准确性较高。使用低密度芯片针对经济性状的基因组预测具有一定的应用前景，本研究为标记的筛选提供参考。

[1]MEUWISSEN T H，HAYES B J，GODDARD M E.Prediction of total genetic value using genome-wide dense marker maps[J].Genetics， 2001，157(4)：1819-1829.

[2]KÖNIG S，SIMIANER H，WILLAM A.Economic evaluation of genomic breeding programs[J].JDairySci， 2009，92(1)：382-391.

[3]SCHAEFFER L R.Strategy for applying genome-wide selection in dairy cattle[J].JAnimBreedGenet， 2006，123(4)：218-223.

[4]GODDARD M E，HAYES B J.Mapping genes for complex traits in domestic animals and their use in breeding programmes[J].NatRevGenet， 2009，10(6)：381-391.

[5]HABIER D，FERNANDO R，KIZILKAYA K，et al.Extension of the bayesian alphabet for genomic selection[J].BMCBioinformatics， 2011，12：186.

[6]CLEVELAND M A，FORNI S，DEEB N，et al.Genomic breeding value prediction using three Bayesian methods and application to reduced density marker panels[J].BMCProc， 2010，4(Suppl 1)：S6.

[7]COSTER A，BASTIAANSEN J W，CALUS M P，et al.QTLMAS 2009：simulated dataset[J].BMCProc， 2010，4 (Suppl 1)：S3.

[8]WELLMANN R，PREUSS S，THOLEN E，et al.Genomic selection using low density marker panels with application to a sire line in pigs[J].GenetSelEvol， 2013，45：28.

[9]SUKHIJA P S，PALMQUIST D L.Rapid method for determination of total fatty acid content and composition of feedstuffs and feces[J].JAgricFoodChem， 1988，36(6)：1202-1206.

[10]PURCELL S，NEALE B，TODD-BROWN K，et al.PLINK：a tool set for whole-genome association and population-based linkage analyses[J].AmJHumGenet， 2007，81(3)：559-575.

[11]ZHANG Q，BOICHARD D，HOESCHELE I，et al.Mapping quantitative trait loci for milk production and health of dairy cattle in a large outbred pedigree[J].Genetics， 1998，149(4)：1959-1973.

[12]CASAS E，STONE R T，KEELE J W，et al.A comprehensive search for quantitative trait loci affecting growth and carcass composition of cattle segregating alternative forms of the myostatin gene[J].JAnimSci， 2001，79(4)：854-860.

[13]BOICHARD D，GROHS C，BOURGEOIS F，et al.Detection of genes influencing economic traits in three French dairy cattle breeds[J].GenetSelEvol， 2003，35(1)：77-101.

[14]BENNEWITZ J，REINSCH N，GROHS C，et al.Combined analysis of data from two granddaughter designs：A simple strategy for QTL confirmation and increasing experimental power in dairy cattle[J].GenetSelEvol， 2003，35(3)：319-338.

[15]CASAS E，SHACKELFORD S D，KEELE J W，et al.Detection of quantitative trait loci for growth and carcass composition in cattle[J].JAnimSci， 2003，81(12)：2976-2983.

[16]KAUPE B，BRANDT H，PRINZENBERG E M，et al.Joint analysis of the influence of CYP11B1 and DGAT1 genetic variation on milk production，somatic cell score，conformation，reproduction，and productive lifespan in German Holstein cattle[J].JAnimSci， 2007，85(1)：11-21.

[17]GUTIéRREZ-GIL B，WIENER P，NUTE G R，et al.Detection of quantitative trait loci for meat quality traits in cattle[J].AnimGenet， 2008，39(1)：51-61.

[18]MCCLURE M C，MORSCI N S，SCHNABEL R D，et al.A genome scan for quantitative trait loci influencing carcass，post-natal growth and reproductive traits in commercial Angus cattle[J].AnimGenet， 2010，41(6)：597-607.

[19]WANG C，HABIER D，PEIRIS B L，et al.Accuracy of genomic prediction using an evenly spaced，low-density single nucleotide polymorphism panel in broiler chickens[J].PoultSci， 2013，92(7)：1712-1723.

[20]ZHANG Z，DING X，LIU J，et al.Accuracy of genomic prediction using low-density marker panels[J].JDairySci， 2011，94(7)：3642-3650.

[21]THREADGILL D W，FRIES R，FABER L K，et al.The thyroglobulin gene is syntenic with the MYC and MOS protooncogenes and carbonic anhydrase II and maps to chromosome 14 in cattle[J].CytogenetCellGenet， 1990，53(1)：32-36.

[22]GOODE E L，CHENEVIX-TRENCH G，SONG H，et al.A genome-wide association study identifies susceptibility loci for ovarian cancer at 2q31 and 8q24[J].NatGenet， 2010，42(10)：874-879.

[23]LANGE E M，JOHNSON A M，WANG Y，et al.Genome-wide association scan for variants associated with early-onset prostate cancer[J].PLoSOne， 2014，9(4)：e93436.

[24]YOKOTA S，SUGITA H，ARDIYANTI A，et al.Contributions of FASN and SCD gene polymorphisms on fatty acid composition in muscle from Japanese Black cattle[J].AnimGenet， 2012，43(6)：790-792.

[25]SAATCHI M，GARRICK D J，TAIT R G JR，et al.Genome-wide association and prediction of direct genomic breeding values for composition of fatty acids in Angus beef cattlea[J].BMCGenomics， 2013，14(1)：730.

[26]ZHANG S，KNIGHT T J，REECY J M，et al.DNA polymorphisms in bovine fatty acid synthase are associated with beef fatty acid composition[J].AnimGenet， 2008，39(1)：62-70.

[27]ABE T，SABURI J，HASEBE H，et al.Novel mutations of the FASN gene and their effect on fatty acid composition in Japanese Black beef[J].BiochemGenet， 2009，47(5-6)：397-411.

[28]LI C，ALDAI N，VINSKY M，et al.Association analyses of single nucleotide polymorphisms in bovine stearoyl-CoA desaturase and fatty acid synthase genes with fatty acid composition in commercial cross-bred beef steers[J].AnimGenet， 2012，43(1)：93-97.

[29]JACOBS A A，DIJKSTRA J，HENDRIKS W H，et al.Comparison between stearoyl-CoA desaturase expression in milk somatic cells and in mammary tissue of lactating dairy cows[J].JAnimPhysiolAnimNutr(Berl)， 2013，97(2)：353-362.

[30]ALIM M A，FAN Y P，WU X P，et al.Genetic effects of stearoyl-coenzyme A desaturase (SCD) polymorphism on milk production traits in the Chinese dairy population[J].MolBiolRep， 2012，39(9)：8733-8740.

[31]BODDHIREDDY P，KELLY M J，NORTHCUTT S，et al.Genomic predictions in Angus cattle：comparisons of sample size，response variables，and clustering methods for cross-validation[J].JAnimSci， 2014，92(2)：485-497.

[32]BOLORMAA S，NETO L R，ZHANG Y D，et al.A genome-wide association study of meat and carcass traits in Australian cattle[J].JAnimSci， 2011，89(8)：2297-2309.

(编辑郭云雁)

Genomic Prediction for Saturated Fatty Acid Content in Simmental using Low Density Chip

QI Xin1，ZHANG Jing-jing1，2，FAN Hui-zhong1，LI Juan1，HU Xin1，3，LIU Fei1，4，ZHU Bo1，GAO Xue1，CHEN Yan1，ZHANG Lu-pei1，GAO Hui-jiang1，LI Jun-ya1*

(1.InstituteofAnimalScience，ChineseAcademyofAgriculturalSciences，Beijing100193，China；2.CollegeofAnimalScienceandTechnology，JilinAgriculturalUniversity，Changchun130118，China；3.CollegeofAnimalScienceandTechnology，InnerMongoliaUniversityforNationalities，Tongliao028000，China；4.CollegeofAnimalScienceandTechnology，HebeiAgriculturalUniversity，Baoding071000，China)

The objective of this study was to explore methods of selection markers and evaluate accuracies of low density (LD) chips.SNPs associated with saturated fatty acid(SFA) content were identified using BovineHD panel and genomic breeding value was evaluated using LD panels which were markers selected on the basis ofP-value or effect value on Simmental bulls.Then we evaluated accuracy of genomic prediction via cross-validation (CV) methodologies based on identical by state (IBS) and random sample.A total of 5 SNPs were associated with SFA and adjacent toMYCgene on BTA14，which could be considered as candidate genes.Prediction was the most accurate when markers were selected on the basis ofP-value and CV was IBS-based.The accuracy of genomic value in 7 000 SNPs panel was steady.In conclusion，this study identified several SNPs associated with SFA and provided reference for marker selection in LD panels for further study.

GWAS；genomic selection；low density chip；SNP；Simmental

10.11843/j.issn.0366-6964.2016.08.003

2015-03-06

农业部专项(CARS-38)；国家自然科学基金(31372294)；中国农业科学院科技创新工程经费(cxgc-ias-03)

齐欣(1989-)，女，天津人，硕士生，主要从事动物遗传育种与繁殖研究，E-mail：qixin8906@sina.com

李俊雅，E-mail：JL1@iascaas.net.cn

S823.92；S813.3

0366-6964(2016)08-1539-07