当前位置:首页 期刊杂志

基于多种组效模型组合的黄芪组效关系研究*

时间:2024-07-28

陈佳佳,李爱平,张晓琴

(1.山西财经大学统计学院 太原 030006;2.山西大学中医药现代研究中心 太原 030006)

黄芪,药典记载豆科植物蒙古黄芪Astragalusmembranaceus(Fisch.) Bge. Var.mongholicus(Bge.) Hsiao或膜荚黄芪Astragalus membranaceus(Fisch.) Bge.的干燥根[1]。黄芪素有“十药八芪”之称,研究表明,黄芪有黄芪黄酮、皂苷、多糖等化学成分,主要药理作用为提高免疫力、抗炎、抗氧化、抗病毒和抗疲劳等,在临床上广泛用于循环系统(心衰、肺心病)、消化系统(胃炎)以及泌尿系统(肾炎、肾性水肿)等疾病的防治[2-3]。除药用外,黄芪作为补气佳品,常被用来炖肉和煲汤,以达到通过食疗治疗脾肺气虚的目的,还可用于美容和改善睡眠。且于2018年由国家卫计委发布的“党参等9种物质作为按照传统既是食品又是中药物质开展试生产”的征求意见稿中将黄芪纳入,呼声较高,有望纳入药食同源目录。黄芪作为山西的道地药材,一直采用传统的直播种植方式,生长年限大多在6年以上,生产成本较高,资源量有限,目前主要供出口和高端市场。而甘肃等地的育苗移栽黄芪却只有2年的生长期,成本低,商品量大[4-5]。怎样评价两类黄芪的质量对中医用药和中药产业发展至关重要,药效是中药的根本属性,而化学成分(组分)又决定中药的活性。

中药组效关系是研究中药化学组分与其相应药效之间的关联关系,进而筛选出对药效起作用的化学组分[6-10]。如何给出中药化学组分与药效之间的定量关系表达式,即构建组效模型是组效关系研究的关键之处。在中药组效关系研究中,常用的回归模型是多元线性回归模型、逐步回归法、偏最小二乘回归模型、Lasso回归等;相关分析常用的相关系数是Pearson相关系数、最大相关系数、互信息、距离相关系数等,这些相关系数可以用来刻画组效关系中各种线性关系或非线性关系;灰色关联度分析中关联度的大小反映了各化学组分与药效指标的关联性大小;主成分分析和聚类分析都不能直接给出各化学组分与药效指标的关联性大小,需要与已有组效模型结合使用,且主成分个数如何选择以及聚类个数如何选择对于组效关系研究至关重要;人工神经网络虽然能够很好地处理非线性组效关系,但它不能给出中药中各化学组分与其药效之间的关联性大小。虽然回归分析、相关分析和灰色关联度分析可以给出化学组分与药效之间的关联矩阵,通过关联性的大小可以筛选出对药效起作用的化学组分,不同组效模型筛选的化学组分有可能不同,如何对已有组效模型的结果进行综合评价值得进一步研究[11]。此外,已有文献未给出筛选的化学组分个数如何确定。如果筛选的化学组分个数较少,就会丢失信息;如果筛选的化学组分个数较多,则会产生冗余。

因此,本研究拟将多种组效模型进行组合,基于非参数方法确定化学组分个数,并应用于中药黄芪的组效关系研究,以期为黄芪活性成分筛选提供方法参考,为其临床应用以及产品开发奠定研究基础。

1 数据来源与方法概述

1.1 数据来源

本文研究黄芪化学成分与其药效(黄芪干预后的内源性代谢物扰动)之间的组效关系,数据来源见文献[4],分别为8批甘肃移栽速生芪和8批山西传统野生黄芪。黄芪化学成分为甘肃黄芪与山西黄芪中可辨识的37个代谢物,具体变量名称和化合物名称见表1,其中xj(j=1,2,…,37)为黄芪的第j个化学成分。药效指标是小鼠给予黄芪干预后血清中可被鉴定的内源性代谢物。内源性代谢物的变化反映的是机体受外界刺激或扰动后的系统响应,可以作为药物的药效学指标,而且近年来在中药药效评价和机制研究中应用广泛[12-14]。首先计算这35个代谢物中任意两个代谢物之间的距离,其次基于系统聚类法对这35个代谢物进行聚类分析,选定聚类个数为3,最后得到3个药效指标y1,y2,y3,其中每个药效指标为对应这类中的代谢物含量相加。每个药效指标对应变量和所包含化合物名称见表2,其中y1反映脂质代谢,y2反映氨基酸代谢,y3反映糖代谢。

表1 黄芪化学成分对应的变量和化合物名称

表2 黄芪药效指标对应的变量与该变量所包含的化合物名称

1.2 多种组效模型的组合方法

记中药化学组分变量为x=(x1,x2,…,xp)T,药效变量为y=(y1,y2,…,yq)T,其中xi(i=1,2,…,p)为第i个化学组分含量,yj(j=1,2,…,q)为第j个药效指标。组效关系即建立多变量化学组分x与多变量药效y之间的定量关系y=f(x)。

基于多种组效模型的组合方法的具体步骤为:

(1)计算关联矩阵:假定有m种组效模型,给定样本数据下基于不同组效模型得到的关联矩阵为

其中ρt(t=1,2,…,m)代表第t种组效模型得到的关联矩阵,ρtj(t=1,2,…m;j=1,2,…,q)是基于第t种组效模型得到的中药化学组分变量x=(x1,x2,…,xp)T与药效yj之间的关联矩阵。

(2)筛选化学组分:对于每种组效模型计算的关联矩阵ρtj(t=1,2,…m;j=1,2,…,q),将关联系数的绝对值从大到小进行排序,记排序后的关联系数对应的变 量 指 标 为j=(j1,j2,…,jp),其 中jk∈{1,2,…,p}(k=1,2,…p)。采用向前引入法,依次令k=1,2,3,…,p,建立因变量y与自变量xj1,xj2,…xjk-1,xjk之间的非参数回归模型,计算模型的均方误差。当k=l与k=l+1时分别建立的回归模型的均方误差相差不大时,停止引入自变量。最后,第t种组效模型即筛选出对因变量y起作用的自变量是xj1,xj2,…,xjl。

(3)组合多种组效模型:记筛选后的化学组分指标为stj(t=1,2,…m;j=1,2,…,q),其中stj为通过第t种组效模型筛选的对药效yj起作用的化学组分指标。令j=1,记为不同组效模型筛选的对药效yj起作用的化学组分指标,计算sj中每个元素的支持度support,

同理,令j=2,3…,q,计算s2,s3,…,sq中每个元素的支持度support。

类似于投票法,对于每个sj选择支持度大于某个临界值τ的对应指标(例如,τ=50%代表最后筛选的化学组分是m种组效模型种有一半筛选出的),这样筛选出的化学组分指标是通过多种组效模型组合方法筛选出的对药效yj起作用的化学组分指标。

2 结果与讨论

基于多种组效模型的组合方法研究三个药效指标y1,y2,y3与黄芪化学成分x1,x2,…,x37之间的组效关系。分别基于偏最小二乘回归、Lasso回归、Pearson相关系数、距离相关系数和灰色关联度分析五种组效模型计算三个药效指标与黄芪化学成分之间的关联矩阵,其中偏最小二乘回归分析、Lasso回归的关联矩阵为三个药效指标与黄芪化学成分之间的回归系数矩阵,Pearson相关系数、距离相关系数的关联矩阵为三个药效指标与黄芪化学成分之间的Pearson相关系数矩阵、距离相关系数矩阵,灰色关联度分析的关联矩阵为三个药效指标与黄芪化学成分之间的灰色关联度矩阵。不同组效模型得到的关联矩阵见表3。

表3 不同组效模型得到的关联矩阵

续表

从表3中可以看出基于偏最小二乘回归分析得到的回归系数有正有负(E-04=10-4);基于Lasso回归得到的一些化学组分对药效指标的回归系数为0;基于Pearson相关系数计算的相关系数在-1与1之间;基于距离相关系数的相关系数为非负值;基于灰色关联度分析得到的关联度范围在0与1之间。不管用哪种组效模型,关联矩阵中关联系数的绝对值越大,对应的化学组分与药效之间的关联关系越大。因此表3中加粗字体的关联系数是通过非参数回归方法筛选的化学组分与对应药效之间的关联系数。

每种组效模型筛选的化学成分对应的变量与化合物名称见表4。基于多种组效模型的组合方法对这五种组效模型进行组合,对于这三个药效指标,分别计算五种组效模型筛选的每个化学成分的支持度,筛选出支持度大于临界值τ=40%和τ=60%的化学成分。通过组合方法(τ=40%和τ=60%)筛选的化学成分对应的变量和化合物见表4。为了比较不同组效模型,表4给出不同组效模型在两种评价指标下的结果。这两种评价指标为均方根误差(RMSE)和分类准确率(Accuracy),其中均方根误差为每种组效模型基于筛选的化学组分与三个药效指标之间建立的非参数回归模型的均方误差的根,分类准确率为每种组效模型基于筛选的化学组分进行k近邻分类(甘肃黄芪和山西黄芪两类)的准确率,本例中取k=6。RMSE越小代表预测误差越小,Accuracy越高代表分类准确率越高,因此RMSE越小越好,Accuracy越高越好。表4中两种评价指标结果表明,不同组效模型的RMSE有所差异,除了Lasso回归其余组效模型的Accuracy均为100%。通过组合方法后,当支持度大于临界值τ=40%时,组合方法的RMSE相比其余五种组效模型不是最大也不是最小,Accuracy为100%。当支持度大于临界值τ=60%时,相比其它组效模型组合方法的RMSE最小,Accuracy为100%。因此,从实例可以看出基于组合方法综合考虑不同单一组效模型,平衡不同组效模型之间的RMSE以及Accuracy。

表4 不同组效模型筛选的化学组分以及两种评价指标结果

基于组合方法(τ=60%)可以分析得到如下合理的组效关系:

胆碱是脂代谢的重要中间产物,大量的胆碱合成了甘油磷酸胆碱和磷脂酰胆碱,甘油磷酸胆碱和胆碱在真核细胞膜中具有重要的结构和功能作用[15]。较高水平的胆碱会导致细胞膜结构的损伤。本研究中,血清中脂质(y1)与芒柄花素(x34)呈正相关。这与黄芪黄酮保护细胞结构,维持细胞内正常通透性和抗凋亡的报道一致[16]。

甘氨酸和肌酸是重要的储能化合物。与能量代谢有关的琥珀酸和柠檬酸是三羧酸循环(TCA)的主要中间产物[15]。黄芪可以提高TCA循环的活性,从而导致细胞线粒体ATP的生成,进而产生更多的能量[4]。在本研究中,氨基酸相关代谢物(y2)与蔗糖(x20)、甜菜碱(x16)和皂苷II(x31)成负相关,表明蔗糖、甜菜碱和皂苷II对能量代谢的影响增强。

在缺氧条件下,葡萄糖可以通过糖酵解分解为乳酸,这是一种潜在的组织营养[4]。研究发现,乳酸可以成为TCA循环提供能源的主要碳来源[17]。在这项研究中,乳酸(y3)与毛蕊异黄酮苷(x35)呈正相关。这可能与毛蕊异黄酮苷的能量代谢调节有关[18]。

本研究基于组效关系得出黄芪黄酮包括芒柄花素和毛蕊异黄酮葡萄糖苷以及黄芪皂苷Ⅱ能够保护细胞膜,促进能量代谢,这也恰好是黄芪实现“补气”功效的重要机制。有研究报道,防己黄芪汤中君药黄芪针对肾病综合征发挥益气固表,利水消肿作用,与调控能量代谢[19]和脂质代谢[20]密切相关,且皂苷类类成分贡献较大[21-23]。另,黄芪针对“疲劳”[24]、“慢性萎缩性胃炎”[25]等发挥“益气”作用均与调控能量代谢有关。尤其针对“心力衰竭”,黄芪可通过即可抑制心肌细胞凋亡,又能改善能量代谢发挥心脏保护作用[26]。

3 结论

对于中药组效关系的研究有很多模型,但鲜有学者将多种组效模型进行组合,并给出筛选的化学组分个数。基于此,本文创新在于提出基于多种组效模型的组合方法,基于非参数回归与组合方法来综合考虑多种组效模型,筛选出化学组分,并用于黄芪组效关系研究。结果表明提出方法是有效的,具有较低的均方根误差和较高的分类准确率,而且筛选的对药效起作用的化学组分与基于药理实验辨识的黄芪药效组分相符。黄芪组效关系的研究有助于黄芪的质量评价。本文采用的偏最小二乘回归、Lasso回归、Pearson相关系数是针对线性组效关系建立的模型,在之后的研究中,希望研究新的组效模型,该模型既能处理线性或非线性组效关系,而且能解决化学组分数据的高维性,更符合基础实验研究产生的数据,有望为其他中药的活性成分辨识以及质量评价提供方法参考。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!