基于支持向量机集成的蛋白质与维生素绑定位点预测

时间：2024-05-04

朱非易

（南京理工大学计算机科学与工程学院，江苏南京210094）

朱非易

（南京理工大学计算机科学与工程学院，江苏南京210094）

在蛋白质与维生素绑定位点预测问题中，小类样本和大类样本之间存在显著的不平衡性，传统的机器学习方法将不再适用。针对此问题，在多重随机下采样的基础上结合支持向量机（SVM）集成来预测蛋白质与维生素的绑定位点，采用了一种改进的AdaBoost集成方法，称为MAdaBoost集成。通过实验比较了不同的集成策略，其中MAdaBoost集成效果最优。实验结果表明，采用随机下采样结合SVM集成将有效提高蛋白质维生素绑定位点预测的精度。

蛋白质⁃维生素相互作用；绑定位点预测；多重随机下采样；SVM集成；Adaboost算法

0 引言

酶是具有生物催化功能的生物大分子，主要由蛋白质组成，对于生物化学变化起催化作用。辅酶是一类可以将化学基团从一个酶转移到另一个酶上的有机小分子，与酶松散地结合，许多酶的催化活动中都需要辅酶的参与。维生素有很多不同的生化功能，如维生素D有抗传染和抗炎的作用，而维生素E和一些维生素C有抗氧化的作用[1]，但是它们最主要的功能是作为酶的辅助因子参与到酶的基底作用中。有些维生素有类似荷尔蒙的功能，调节矿物质的代谢（如维生素D）或者调节细胞和组织的生长（如某些维生素A）。

在健康的人体内，维生素通过与酶分子在合适的绑定位点进行绑定，参与到人体的生化反应中。但对于病人而言，维生素与酶的位点绑定活动不能正常的进行。这些酶便成了许多疾病的药物靶点，因此研究蛋白质与维生素的绑定位点预测问题对于生物制药等相关行业具有非常重要的意义。但是传统的实验室测定方式存在实验工作量大、周期长、代价高等缺点，可见传统的实验室测定的方式已不能满足当下行业发展的迫切需求，利用智能计算方法来预测维生素作用位点能够加快预测的速度，提高实验效率，因此当前这类研究具有相当重要的意义。

本文主要针对蛋白质维生素绑定位点预测展开研究。“绑定”一词的意思就是蛋白质序列上的某个氨基酸残基与配体发生生物化学作用，该氨基酸残基被称作“绑定位点”，相反，不发生作用的氨基酸残基称为“非绑定位点”。在蛋白质的序列中只有少数的残基能够与维生素发生绑定作用，而蛋白质序列中不与维生素绑定的残基数量比绑定残基的数量多得多，因此可以将蛋白质与维生素绑定位点预测问题归结为典型的不平衡学习问题[2]。解决不平衡问题的方法有很多，Mohamed Bek⁃kar[3]将解决方法归纳为以下几类：

（1）通过采样方法对不平衡数据进行预处理；

（2）通过分类器集成的方法提高预测的效果；

（3）代价敏感学习方法；

（4）特征选择方法。

本研究中，将绑定位点称为小类样本，也是令人感兴趣的类别，不妨称为正类样本，而将非绑定位点称为大类样本（负类样本）。采用随机下采样的方法对大类样本进行采样，但是随机下采样可能会造成大类样本中有用信息的丢失。相关研究表明分类器集成能够有效地降低随机下采样带来的负面影响[4]。在本研究中，使用多重随机下采样并结合分类器集成的方法以提高蛋白质⁃维生素绑定位点的预测精度。首先，在大类样本中进行多次随机下采样得到多个数量与小类样本数量相同的大类样本子集；然后，将这些大类样本子集和小类样本集结合成训练集，在这些训练集上分别训练出基分类器，最后将基分类器进行集成。本研究中采用了最大集成（Maxi⁃mum Ensemble）、最小集成（Minimum Ensemble）、平均集成（Mean Ensemble）等，此外根据所研究问题本身的特点，采用了一种改进的AdaBoost集成（称之为MAda⁃Boost Ensemble）方法[5]。根据分类器的集成结果，得到蛋白质序列中每个氨基酸（残基）属于绑定位点的可能性，并采用基于阈值的方法对实验结果进行处理，得出最终的预测结果及其各项评价指标。在国际标准数据集上进行实验，实验结果显示，采用随机下采样结合支持向量机集成的方法能显著提高预测精度，其中以改进的AdaBoost集成效果最优。

1 数据和研究方法

1.1 数据集来源

本文采用Bharat Panwar等提供的蛋白质序列数据集[5]，这里称之为VIRs，该数据集中包含187条蛋白质维生素绑定位点相关的蛋白质序列，其中包含3 016个蛋白质维生素作用残基。在VIRs中，任意两条蛋白质序列的相似度低于25%，同时，使用了一个包含46条蛋白质序列且任两条序列相似性低于25%的独立测试集（称之为V⁃IND⁃46）来验证本文所述方法的泛化能力，并且该独立测试集与训练集VIRs中的任意一条序列之间的相似性也低于25%。

1.2 数据特征

1.2.1 位置特异性得分矩阵

一个具有N个残基的蛋白质序列的进化信息可以用一个大小为N×20的位置特异性得分矩阵（Position Specific Scoring Matrix，PSSM）来表示。其中矩阵的每行对应于该蛋白质序列的某个氨基酸残基，每列对应于20种常见氨基酸的某一种，则该矩阵的第i行、第j列的元素表示蛋白质序列中的第i个氨基酸进化为第j种常见氨基酸的原始得分，分值越大表示进化的可能性越大。在Swiss⁃Port数据库上通过执行PSI⁃BLAST程序搜索可行的非同源数据库[7]。经过3次迭代，PSI⁃BLAST产生PSSM数据文件，该PSSM数据文件包含所有氨基酸在每个位置发生变异的可能性，并且为所有氨基酸提供了进化信息。最后，使用逻辑斯蒂函数对PSSM数据文件进行标准化，逻辑斯蒂函数定义如下：

式中x是PSSM矩阵中原始得分。

1.2.2 滑动窗口模式

本文采用滑动窗口模式[8⁃9]，经过实验总结得知当窗口大小W=17时能得到最佳的预测结果。如果窗口中间的残基是作用残基，那么将得到的这个滑动窗口模式定义为作用的（小类样本），否则定义为非作用的（大类样本）。本文对蛋白质序列中首尾个残基采取去除的方法来处理，因此这里去除每条蛋白质序列中首尾8个残基。

1.3 多重随机下采样和SVM集成

随机下采样能够有效地平衡不同类中样本数据集，提供一个较小的训练数据集，同时能够加快训练和预测的速度。然而，随机下采样的过程中可能会丢失大类样本中的一些有效信息，这会使预测精度下降。为了解决该问题，一个有效的方法就是综合使用随机下采样和分类器集成技术。具体的做法如下：首先，在大类样本中进行K（本研究中K=5）次无重复地抽样，每次抽取的样本数量和小类样本数量相同，从而得到K个大类样本子集。将得到的K个大类样本子集和小类样本集分别合并成为K个新的平衡的训练集。接下来使用得到的合成数据集作为输入进行训练，可以得到K个机器学习模型；在接下来的预测阶段，使用上面得到的K个模型预测出蛋白质序列中的每个残基属于绑定残基的概率值，作为每个基分类器的输出。最后，对K个基分类器的输出使用合适的分类器集成策略。这样做不仅能够利用随机下采样的优点构造出平衡的数据集，而且可以降低随机下采样中有效信息丢失造成的不利影响。本研究中，采用支持向量机（Support Vector Machine，SVM）作为分类器集成中的基分类器。

支持向量机由Vapnik提出[10]，在生物信息学领域得到了广泛的应用并取得了很大成功。不同于传统的基于最小化经验风险的模式识别方法，支持向量机是基于最小化结构风险的。本研究中采用LIBSVM[11]，其中核函数采用径向基（RBF）核函数，在十重交叉验证的基础上使用LIBSVM网格搜索得到最优正则化参数γ和核宽参数σ。

分类器集成的方法在生物信息学研究中有着广泛地应用，例如蛋白质折叠预测、蛋白质亚细胞定位预测、蛋白质结构类预测等。这里将在蛋白质与维生素绑定位点预测问题中探究分类器集成方法的应用及效果。分类器集成方法的基本思路类似于人类作决策的过程，在决策过程中一般不能只采纳一个人的意见，而是综合大家的意见，最后得出一个全方位多视角的最优决策方案。分类器集成方法是将多个分类器组合在一起得到一个新的分类器，这个新的分类器的性能比任何组成它的单个分类器的性能都好。分类器集成的主要目的是提高基分类器的泛化能力，因为每个基分类器都可能会发生错分现象，但是由于每个基分类器之间的差异性（例如：在不同的训练集上训练产生基分类器，或者采用不同的机器学习方法训练基分类器），错分样本不会完全相同，这样能够降低过学习的影响，从而提高泛化能力。

研究表明不同的集成策略会得到不同的集成结果，每种集成策略都有各自的优点和缺点，没有一种策略是对所有应用都是最优的[12]。对于特定的应用，比如本文中的蛋白质与维生素绑定位点预测，可以选择合适的集成策略但是理论上最优的集成策略仍然很难得到。基于此，选择四种常用的集成策略[12⁃13]，具体包括：最大集成（Maximum Ensemble）、最小集成（Minimum Ensemble）和平均集成（Mean Ensemble）以及改进的AdaBoost集成。为了适应蛋白质维生素绑定位点的预测问题的特殊性，这里采用改进的AdaBoost集成方法[5]的主要意图是要避免蛋白质同源性对蛋白质与维生素绑定位点预测造成的过适应的影响。下面分别对这些基础策略进行描述。

在分类器集成的过程中用L={l1,l2,…,lM}表示类别集合，C={c1,c2,…,cK}表示K个基分类器的集合，XTr=表示训练集。每个基分类器输出一个M维的向量这里Si,j(x)代表的是样本x被分类器Si分到第j类的可能性，1≤j≤M。K个基分类器对样本x的输出组成了一个决策度量表（Measurement Table），表示为MT(x)，如下：

应用集成策略（这里记为ES（Ensemble Strategy）），将集成分类器EC（Ensembled Classifier）表示如下：

对于一个测试样本x∈X，集成分类器的结果表示为ϕ(x)，可用以下公式表示该过程：

针对上面提到的四种集成策略，ϕj(x)产生如下：

在最大集成、最小集成、平均集成中，ϕj分别是取Si,j(x),1≤i≤K的最大值、最小值、平均值。

通过上述三种集成方法之一得到一个集成结果向量ϕ(x)=(ϕ1,ϕ2,…,ϕM)T，使用合适的判别阈值，即可将预测样本x判别为M类中的某一类，从而完成分类。

（1）改进的AdaBoost集成

AdaBoost（Adaptive Boosting）算法由Freund和Schapire提出[14⁃15]，是为了证明在PAC学习理论下一个弱学习算法能够被“提升”为一个强学习算法，之后AdaBoost算法在机器学习领域受到了极大的关注，相关的实验表明AdaBoost可以显著提高机器学习算法的性能[16⁃17]。

传统的AdaBoost算法中采用基于样本分布的抽样策略，而MAdaBoost算法中用随机下采样来构建训练集；另一个不同点是在传统的AdaBoost算法中，整个训练集的样本都被用来作为每个分类器的分类错误率评估样本，而在MAdaBoost算法中用独立测试集来进行评估，这样做是要保证训练集和测试集的样本不来自同一条蛋白质序列，减少同源性问题对实验效果的影响。

MAdaBoost算法的详细过程如图1所示[5]。在k-重交叉验证的每重交叉验证的过程中应用MAdaBoost，在k个子集中，取其中一个子集用来做测试集，另一个子集用来构建评估集剩下的k-2个子集用来构建训练集。

对于一个未知样本x，通过集成分类器获得其分为lj类的可能性的计算公式如下：

式中εi表示分类器Si的加权集成错误率。

最后，选择一个合适的分类可能性阈值来判定预测结果中残基是绑定还是非绑定的。

图1 改进的AdaBoost算法流程图

1.4 蛋白质维生素绑定位点预测系统结构

对于一个需要进行预测的蛋白质序列，首先提取该蛋白质序列的逻辑斯蒂位置特异性得分矩阵（Logistic PSSM）然后进行窗口大小为17的滑动窗口操作，接着将得到的数据提供给L个SVM基分类器，再对L个SVM的输出结果进行集成，最后用一个合适的阈值来判定残基是否是蛋白质维生素绑定残基。整个预测系统的结构图如图2所示。

图2 蛋白质维生素绑定位点预测系统结构图

2 实验分析

2.1 评价参数

为了评估本文中实验方法的性能，采用灵敏度（Sensitivity，Sen）、特异性（Specificity，Spe）、准确性（Ac⁃curacy，Acc）、马氏相关系数（Matthews Correlation Coef⁃ficient，MCC）以及受试者工作特征曲线下面积（Area Under the Receiver Operating Characteristic curve，AUC）等指标来度量。在基于预测的学习问题中这些评价指标经常被用到[18]。灵敏度、特异性、准确性和马氏相关系数是阈值相关的，它们的计算公式如下：

式中：TP表示正确预测小类样本数；TN表示正确预测大类样本数；相应地，FP表示错误预测小类样本数；FN则表示错误预测大类样本数。AUC是独立于阈值的，它的值和分类器的预测效果成正比。

本研究中采用软分类的方法，各个基分类器输出样本被分为不同类别的可能性矩阵，逐步调整分类阈值会产生一系列的混淆矩阵[2]。根据每一个混淆矩阵可以计算出相应的Spe，Sen，Acc和MCC，可见这四个评价指标是阈值相关的，相关研究[5]根据不平衡学习的特殊性提出了合理报道这些评价指标的方法：

（1）平衡评价：当错误预测小类样本率（False Posi⁃tive Rate，FPR）等于错误预测大类样本率（False Nega⁃tive Rate，FNR）时，得到相关评价参数，使用这些参数评价预测效果；

（2）不平衡评价：使用FPR不等于FNR时得到的评价参数对预测效果进行评价。

本文中，在对交叉验证和独立测试集的结果分别采用了平衡的评价方式和不平衡的评价方式。

2.2 实验结果分析

为避免训练残基和测试残基来自同一条蛋白质，采用蛋白质水平上的交叉验证方法[5]，在数据集VIRs上进行了5重交叉验证，在每次交叉验证的过程中分别对数据进行非集成（No Ensemble）、最大集成、最小集成、平均集成以及改进的AdaBoost集成。为了与同类型的方法进行合理的比较，分别采用了平衡和非平衡的评价方式，在数据集VIRs上进行平衡评估，实验数据如表1所示，在数据集VIRs上进行非平衡评估，实验数据如表2所示，通过表1和表2能够清楚地看到，采用集成的方法要比不采用集成的方法效果好。同时，改进的AdaBoost集成策略下分类器的分类效果最佳。

表1 平衡评价方式下VIRs上不同集成策略的预测结果

表2 非平衡评价方式下VIRs上不同集成策略的预测结果

在B.Panwar等人针对VIRs的实验研究[6]中，由于他们采用的是在残基水平上的交叉验证，会使同源蛋白质出现在同一训练集中的概率提高，从而导致实验结果虚高，在Yu等的研究[19]中，对B.Panwar的研究在蛋白质序列水平上重新做了实验，其采用交叉验证的方法得到平衡评价方式下MCC为0.29，AUC为0.87，非平衡评价方式下MCC为0.54，AUC为0.87。在该实验中，采用改进的AdaBoost集成策略在蛋白质序列水平上的交叉验证得到的平衡方式下的MCC为0.345，AUC为0.895，非平衡方式下MCC为0.539，AUC为0.898。可见，本文中采用的MAdaBoost方法对蛋白质与维生素绑定位点预测效果有一定改进。

为了充分验证本文中所用方法的泛化能力，在独立测试集V⁃IND⁃46上进行了测试，实验结果如表3，表4所示。

表3 平衡评价方式下V⁃IND⁃46上不同集成策略的预测结果

由表3、表4可知，本文中采用的随机下采样和SVM集成的方法来预测蛋白质与维生素绑定位点，能够在独立测试集上获得较理想的预测效果，充分说明SVM集成的方法应用在蛋白质与维生素绑定位点预测问题中的有效性。同时，随机下采样的方法大大加快了训练的过程，SVM集成降低了随机下采样造成的小类样本中有效信息的丢失。

表4 非平衡评价方式下V⁃IND⁃46上不同集成策略的预测结果

3 结语

本文根据蛋白质序列信息，通过逻辑斯蒂标准化后的PSSM特征提取方法，采用滑动窗口参数优化提高预测精度，利用SVM集成的方法以减少随机下采样造成的小类样本信息丢失的影响，选取阈值最优对预测值判别蛋白质维生素是否绑定，最终得到预测结果。采用不同的集成策略，通过实验结果可知改进的AdaBoost集成方法的分类效果较好。

在本研究的基础上，对蛋白质维生素绑定位点预测的研究有了一定了解，未来的工作包括：在特征提取的过程中可以加入蛋白质的其他特征信息，例如蛋白质的二级结构信息、蛋白质的水溶性信息等。针对维生素这一类配体，可以将配体进行进一步分类，对不同种类的维生素进行具体的分析，如维生素A、维生素B、维生素B6等。

[1]ADAMS J S，HEWISON M.Unexpected actions of vitamin D：new perspectives on the regulation of innate and adaptive im⁃munity[J].Nature Clinical Practice Endocrinology&Metabo⁃lism，2008，4（2）：80⁃90.

[2]HE Hai⁃bo，GARCIA E A.Learning from imbalanced data[J]. IEEETransactionsonKnowledgeandDataEngineering，2009，21（9）：1263⁃1284.

[3]MOHAMED B，ALITOUCHE T A.Imbalanced data learning approaches review[J].International Journal of Data Mining& Knowledge Management Process（IJDKP），2013，3（4）：15⁃18.

[4]LIU Xu⁃ying，WU Jian⁃xin，ZHOU Zhi⁃hua.Exploratory under⁃sampling for class⁃imbalance learning[J].IEEE Transactionson System，Man and Cybernetics，Part B：Cybernetics，2009，39（2）：539⁃550.

[5]YU Dong⁃jun，HU Jun，TANG Z M，et al.Improving protein⁃ATP binding residues prediction by boosting SVMs with random under⁃sampling[J].Neurocomputing，2013，104：180⁃190.

[6]PANWAR B，GUPTA S，RAGHAVA G P S.Prediction of vita⁃min interacting residues in a vitamin binding protein using evo⁃lutionary information[J].BMC bioinformatics，2013，14（1）：44⁃58.

[7]ALTSCHUL S F，MADDEN T L，SCHAFFER A，et al.Gapped BLAST and PSI⁃BLAST：a new generation of protein database search programs[J].Nucleic Acids Res.，1997，25（17）：3389⁃3402.

[8]KUMAR M，GROMIHA M M，RAGHAVA G P.Prediction of RNA binding sites in a protein using SVM and PSSM profile [J].Proteins：Structure，Function and Bioinformatics，2008，71（1）：189⁃194.

[9]AGARWAL S，MISHRA N K，SINGH H，et al.Identification of mannose interacting residues using local composition[J]. PLoS ONE，2011，6（9）：1⁃8.

[10]VAPNIK V N.The nature of statistical learning theory[M]. New York：Springer，2000.

[11]FAN R E，CHEN P H，LIN C J.Working set selection using second order information for training support vector machines [J].The Journal of Machine Learning Research，2005，6：1889⁃1918.

[12]XU Lei，AMARI S.Combining classifiers and learning mixture⁃of⁃experts[J].IGI Global，2009，3：218⁃326.

[13]KUNCHEVA L I.Combining pattern classifiers：methods and algorithms[M].New York：Wiley⁃Interscience，2004.

[14]FREUND Y，SCHAPIRE R E.A short introduction to Boosting [J].Journal of Japanese Society for Artificial Intelligence，1990，14（5）：771⁃780.

[15]FREUND Y，SCHAPIRE R E.Experiments with a new boosting algorithm[C]//Machine Learning：Proceedings of the Thir⁃teenth International Conference.[S.l.]：ICML，1996，96：148⁃156.

[16]DIETTERICH T G.An experimental comparison of three methods for constructing ensembles of decision trees：bag⁃ging，boosting，and randomization[J].Machine learning，2000，40（2）：139⁃157.

[17]MEIR R，RATSCH G.An introduction to boosting and leve⁃raging[J].Advanced Lectures on Machine Learning，2003，2600：118⁃183.

[18]BHASIN M，RAGHAVA G P.GPCRpred：an SVM⁃based method for prediction of families and subfamilies of G⁃protein coupled receptors[J].Nucleic Acids Research，2004，32（2）：383⁃389.

[19]YU Dong⁃jun，HU Jun，YAN Hui，et al.Enhancing protein⁃vitamin binding residues prediction by multiple heterogeneous subspace SVMs ensemble[J].BMC Bioinformatics，2014，15（1）：297⁃311.

Protein⁃vitamin binding site prediction based on SVM ensemble

ZHU Fei⁃yi
(School of Computer Science and Engineering，Nanjing University of Science and Technology，Nanjing 210094，China)

Since the obvious imbalance exists between small samples and large samples in protein⁃vitamin binding site pre⁃diction problem，the traditional machine learning approach is not suitable for this problem.To tackle this problem，protein⁃vita⁃min binding site is predict by combining multiple random sampling with SVM ensemble，an improved AdaBoost algorithm which is called MAdaBoost ensemble is adopted.Different ensemble strategies are compared by experiments，the MAdaBoost ensemble strategy is optimal.The experimental results show that the accuracy of protein⁃vitamin binding site prediction is improved by ap⁃plying random sampling with SVM ensemble method.

protein⁃vitamin interaction；binding site prediction；multiple random sampling；SVM ensemble；AdaBoost al⁃gorithm

TN911⁃34；TP391

1004⁃373X（2015）09⁃0090⁃06

朱非易（1990—），女，硕士研究生。主要研究方向为生物信息学、模式识别。

2014⁃10⁃27

江苏省自然科学基金-面上项目：面向蛋白质生物计算的特征抽取及动态学习模型研究（BK20141403）