时间:2024-07-28
熊邦书 XIONG Bangshu 张郝东 ZHANG Haodong 欧巧凤 OU Qiaofeng 叶毅嘉 YE Yijia
论著
基于相似度图的凝胶图像间蛋白点特征分析
熊邦书 XIONG Bangshu 张郝东 ZHANG Haodong 欧巧凤 OU Qiaofeng 叶毅嘉 YE Yijia
作者单位 南昌航空大学无损检测技术教育部重点实验室 江西 南昌 330063
针对现有凝胶图像间蛋白点匹配方法在选择特征时,没有直观和统一标准的问题,本文提出了基于相似度图的蛋白点特征分析方法。首先给出相似度图的定义和生成方法;其次利用相似度图法分析坐标相似度、形状上下文相似度和形态参数相似度等5种常用特征的特点及优劣;最后根据特征分析结果提出一种多特征综合利用的乘积法,相比均值法具有更好的匹配效果。为验证相似度图和多特征综合乘积法的有效性,开展了多种图源的凝胶图像蛋白点匹配实验,结果表明,相似度图能够直观、有效地反映蛋白点特征的匹配性能,对多特征的选择和综合利用具有很好的指导意义。
凝胶电泳图像;蛋白点匹配
凝胶电泳技术是蛋白质组学分析蛋白质表现的重要方法,通过比对分析提取差异蛋白质点,进而为疾病诊断、药物研制或环境污染分析提供依据。近年学者们提出了许多凝胶图像间蛋白点匹配方法[1-2],这些方法均需要对蛋白点进行相似性度量,考虑的主要特征可分为两类:形态描述[3-7]和几何分布[6-10]。蛋白点形态描述是表示蛋白点外观形态特征,如面积、灰度相似度、结构相似度等;几何分布是表示蛋白点在图像中的分布情况,如坐标、形状上下文等。在基于灰度匹配的基础上,Rohr等[3]提出了手工添加少数标记点进行图像形变校正的方法,能够显著提高匹配精度;Dowsey等[4]融入了多分辨率概念和体积不变B样条,实现了凝胶图像的精准对齐。Lin[5]采用最大相关张成树法,提出了基于局部图像像素灰度的匹配方法。熊邦书等[6]利用蛋白点坐标相似度特征和蛋白点局部图像灰度相似度特征,提出了基于分层策略的匹配算法。唐浩等[7]采用灰度分层和几何分块相结合的匹配策略,结合形状上下文与灰度相似度对蛋白点进行匹配。Rogers等[8]分别利用欧式距离和形状上下文特征并结合迭代最近点[11]策略进行蛋白点匹配。Horaud等[9]采用刚性变换叠加的变换模型,并利用最大似然估计方法训练刚性变换参数,获得了较好的图像对齐效果。Noma等[10]提出了以蛋白点为节点组成图,再根据图进行匹配的方法。现有匹配方法对于特征的选择、优劣及多种特征的综合效果,只能从最终的匹配结果中得出,缺少直观和统一的评估标准。本文采用相似度图方法对多种常用的蛋白点特征进行直观分析和评估,在此基础上提出了一种多特征综合利用的乘积法,提高了蛋白点匹配的精度。
相似度计算是在参考凝胶图像中的蛋白点和待匹配凝胶图像中的蛋白点间进行,计算前需对凝胶图像进行蛋白点检测,获得蛋白点的中心坐标和所在区域信息。
设参考凝胶图像中的蛋白点集为Sa={Si|i=1,2,...,Na},待匹配凝胶图像Ib中的蛋白点集为Sb={Sj|j=1,2,...,Nb},其中Na和Nb分别为两凝胶图像中的蛋白点个数。令蛋白点si和sj的某种特征归一化相似度为mij∈[0,1],则Ia和Ib中蛋白点间的相似度矩阵为:
为便于观察相似度的分布情况,将Mab的元素值线性映射到区间[0,255]上,并取整为像素的灰度值,生成相似度图。相似度图中的像素亮度越高,表示对应的两个蛋白点越相似。
本文以坐标相似度、形状上下文相似度、形态参数相似度、灰度相似度和结构相似度5个现有蛋白点匹配方法[6-8]中常用的蛋白点特征为研究对象,进行特征相似度分析,并分别生成相似度图进行对比。上述特征中前2个特征属于几何分布类别,后3个特征属于形态描述类别。用于对比试验的凝胶图像见图1。
为便于特征相似度对比分析,本文采用人工方法对图1所示的图源进行匹配,并生成标准相似度图(图2A),用于各特征相似度图的对照。对应的相似度矩阵中,若两蛋白点相匹配,则其相似度为1,否则为0。
2.1 坐标相似度 为了降低图像尺寸和蛋白点分布偏差的影响,需先对蛋白点坐标进行归一化处理。设两幅凝胶图像Ia和Ib的尺寸分别为Wa×Ha和Wb×Hb,根据是否已知待匹配图像与参考图像间的变换关系,坐标归一化的计算分为两种情况。
图1 特征相似度分析采用的凝胶图像。A、B分别为参考凝胶图像和待匹配凝胶图像,图中蛋白点较为明显,包含较少的干扰因素
2.1.1 未知凝胶图像间变换关系 凝胶图像间的变换关系未知时,根据蛋白点平均坐标确定凝胶图像间的位置偏差。设图像Ia中所有蛋白点的平均坐标为Ca=(xa,ya),蛋白点Sai的坐标为Xai=(xai,yai),则蛋白点Sai的中心归一化坐标为:
同理可得凝胶图像Ib中蛋白点的中心归一化坐标。
2.1.2 已知凝胶图像间变换关系 设Ib到Ia的变换关系为T(·),Sai和Sbj分别为图像Ia和Ib中的蛋白点。Sai的归一化坐标为:
Sbj的归一化坐标为:
蛋白点坐标相似度为:
若两个蛋白点的坐标越相似,则Oai,bj值越趋近于1。
图2B给出了图1的坐标相似度图,对照标准相似度图2A,可以看出相匹配蛋白点间相似度值较高;非匹配蛋白点间相似度值较低,但存在许多干扰区域。因此仅使用坐标相似度不能获得很好的匹配结果,但具有一定的利用价值。
2.2 形状上下文相似度 形状上下文[12]描述了近邻点的分布情况,常用于目标识别。首先统计径向区域内的蛋白点数量,生成近邻蛋白点的分布直方图(图3);然后计算两直方图间的χ2距离,得到两蛋白点间的形状上下文相似度Cai,bj∈[0,1]。若两个蛋白点的形状上下文越相似,则Cai,bj值越趋近于1[7]。
图2 特征相似度图。A为标准相似度图,B为坐标相似度图,C为形状上下文相似度图,D为形态参数相似度图,E为灰度相似度图,F为结构相似度图
图3 形状上下文相似度。A为蛋白点分布,B为直方图
图2C给出了图1的结构相似度图,对照坐标相似度图2B,可以看出形状上下文相似度同坐标相似度的效果十分相似,但是在部分细节上有所不同。
2.3 形态参数相似度 形态参数有面积、平均灰度、基准、深度、饱和度、稀疏度等,为了降低图像间亮度差异和噪声的影响,提高蛋白点形态参数的可靠性,需对凝胶图像进行去噪、增强和灰度归一化等预处理。
设凝胶图像I中蛋白点集为S={si|i=1,2,2...,N},N为蛋白点个数。记蛋白点si内的像素个数为面积Area (si),第k个像素的灰度为Gray(si,k),像素灰度的最小值为Vall(si);边缘点集共有Peri(si)个像素,第k个像素的灰度为Gp(si,k);蛋白点si与sj(j≠i)的距离为Dist(si,sj),则蛋白点的平均灰度为:
基准为:
深度为:
饱和度为:
稀疏度为:
参数归一化计算公式为:
面积、平均灰度、基准、深度、饱和度和稀疏度等参数归一化时将公式(12)中Para替换成各参数,如归一化面积计算公式为:
将蛋白点的面积、平均灰度、基准、深度、饱和度和稀疏度参数组成表征向量:
蛋白点间的形态参数相似度定义为表征向量欧式距离的倒数,计算公式为:
若两个蛋白点的形态越相似,则Pai,bj值越趋近于1。
图2D给出了图1的形态参数相似度图,对照标准相似度图2A,可以看出形态参数相似度图杂乱无章,存在许多相匹配蛋白点间相似度值较低的情况。因此,形态参数基本没有利用价值。
2.4 灰度相似度 灰度相似度(归一化互信息)常用以衡量两幅图像间的相似度[13],在文献[6]中则通过两个蛋白点局部图像间的相似度表示两个蛋白点间的相似度。
设在凝胶图像Ia有蛋白点sai,坐标为(xai,yai),局部图像区域Lai为同样,凝胶图像Ib中的蛋白点sbj坐标为(xbj,ybj),局部图像区域Lbj为sai和sbj间灰度相似度计算的
主要步骤如下:
步骤1:将Lai和Lbj进行缩放,统一尺寸为和其中,
步骤2:计算图像L'ai中像素的平均灰度μai和标准差σai:
其中,N为像素个数,lai(n)表示第n个像素的灰度值。同理计算图像L'bj的平均灰度μbj和标准差σbj。
步骤3:计算图像L'ai和L'bj的协方差:
步骤4:计算图像L'ai和L'bj的灰度相似度:
其中,c为极小项,用于避免式中出现分母为0的情况,本文实验中取为10-6。若两个蛋白点的图像越相似,则Rai,bj值越趋近于1。
图2E给出了图1的灰度相似度图,对照标准相似度图2A和坐标相似度图2B,可以看出相匹配蛋白点间相似度值较高;非匹配蛋白间相似度值较低,但存在许多干扰,又与坐标相似度图中干扰程区域状不同。因此,仅使用灰度相似度不能获得很好的匹配结果,灰度相似度与坐标相似度存在一定的互补性。
2.5 结构相似度 结构相似度[14]与灰度相似度类似,能够衡量两幅图像间的相似度,目前常用于图像质量评估领域。
其计算方法类似于灰度相似度,先获取两蛋白点的局部图像并缩小至同一尺寸,其次计算两局部图像的灰度均值μai和μbj,标准差σai和σbj及协方差σai,bj,最后计算两个局部图像间的相似度,计算公式为:
其中,c1和c2为辅助常数,用于稳定结果,经典取值为c1=(k1c)2,c2=(k2c)2,其中k1=0.01,k2=0.03,c为图像像素的颜色数,对于8位的灰度图像,c=256。若两个蛋白点的图像越相似,则Sai,bj值越趋近于1。
图2F给出了图1的结构相似度图,对照灰度相似度图2E,可以看出结构相似度同灰度互相关的效果十分相似,但是在部分细节上有所不同。
由“2特征相似度”分析可知,坐标相似度、形状上下文相似度、灰度相似度、结构相似度4个特征具有较高的利用价值,但均存在较多干扰,单独使用某一个特征无法获得较好的匹配结果;不同特征具有自己的特点,且两类特征间又具有很强的互补性。因此蛋白点匹配时需要综合考虑多个具有较高利用价值的特征。
文献[6]中对坐标相似度和灰度相似度进行加权平均,获得了较好的匹配效果;文献[7]中对坐标相似度、形状上下文相似度和灰度相似度进行加权平均,具有更好的匹配效果。两项研究采用的综合方法都是对多个特征进行加权平均,简称均值法。为观察均值法的效果,对坐标相似度、形状上下文相似度、灰度相似度、结构相似度4个特征值进行等权值平均,相似度图见图4A。
将图4A与图2中各相似度图对比,可以看出均值法在一定程度上降低了非匹配蛋白点间的相似度值,效果明显优于单个特征。
为进一步提升多特征综合效果,根据4个特征的特点设计不同的综合方法,通过观察比较对应的综合相似度图确定优劣,提出将4个特征的相似度值相乘(乘积法)具有更好的效果。图4B给出乘积法的相似度图,对照标准相似度图2A和均值法相似度图4A,可以看出乘积法相似度图更接近标准相似度图。
为了验证相似度图和乘积法的有效性和适应性,分别根据各个特征相似度、均值法相似度和乘积法相似度,采用多个图源的凝胶图像进行匹配实验。
现有的匹配方法将匹配过程分为粗匹配和精匹配两步:粗匹配过程完成部分蛋白点的准确匹配;精匹配过程将已匹配点作为参考标记点,采用某种策略实现剩余蛋白点的匹配。因此,粗匹配的精度直接影响最终匹配的精度,为方便起见,本文仅进行粗匹配实验,采用文献[6]中的粗匹配方法,实验用凝胶图像分别见图5~7。
为量化匹配结果,通过公式(21)计算正确匹配率r和公式(22)计算误匹配率f:
图4 综合相似度图。A为均值法相似度图,B为乘积法相似度图
图5 国际凝胶图像[15]。A、B两凝胶图像的背景亮度不一致,A中背景过亮,能够检测到的蛋白点数目比B中少
图6 Bio-Rad公司测试图像[16]。A、B两凝胶图像间存在较大的非线性扭曲,并且蛋白点由于染色不足而颜色较浅
图7 A、B两凝胶图像中存在蛋白点拖尾粘连现象,并且胶板存在裂缝干扰条纹
其中,np为凝胶图像中真实存在的蛋白点对数,nr为结果中正确匹配的对数,nf为结果中错误匹配的对数。粗匹配实验结果见表1。
由表1可见,形态参数相似度具有最低的正确匹配率和最高的误匹配率,基本无利用价值;几何分布类特征比形态描述类特征具有较高的正确匹配率和较低的误匹配率,具有更高的使用价值;形状上下文相似度比坐标相似度使用价值较高;结构相似度与灰度相似度性能相近,前者略有优势;两种综合相似度均比单一特征相似度具有较高的使用价值;乘积法综合相似度比均值法综合相似度具有更高的使用价值。
表1 粗匹配实验结果
上述匹配实验结果验证了本文相似度图法能直观、有效地分析蛋白点特征的匹配性能,也验证了本文提出的多特征综合乘积法的有效性。
总之,本文提出了基于相似度图的凝胶图像间蛋白点特征分析方法,采用相似度图对蛋白点特征进行直观分析,在此基础上提出了多个特征综合利用的乘积法,相对于均值法具有更高的粗匹配精度。通过多图源真实凝胶图像的匹配实验,验证了相似度图的有效性,对多特征的选择和综合利用具有很好的指导意义。
[1] Rabilloud T,Chevallet M,Luche S,et al.Two-dimensionalgel electrophoresis in proteomics:past,present and future.J Proteomics,2010,73(11):2064-2077.
[2] Rogowska-Wrzesinska A,Le Bihan M,Roepstorff P.2D gels still have a niche in proteomics.J Proteomics,2013,88(SI):4-13.
[3] Rohr K,Cathier P,Wörz S.Elastic registration of electrophoresis images using intensity information and point landmarks.Pattern Recognit,2004,37(5):1035-1048.
[4] Dowsey AW,Dunn MJ,Yang GZ.Automated image alignment for 2D gel electrophoresis in a high-throughput proteomics pipeline.Bioinformatics,2008,24(7):950-957.
[5] Lin DT.Autonomous sub-image matching for two-dimensional electrophoresis gels using MaxRST algorithm.Image Vis Comput,2010,28(8):1267-1279.
[6] 熊邦书,陈乐平,欧巧凤,等.基于分层策略的凝胶图像间蛋白点匹配算法.中国生物医学工程学报,2012,31(3):422-427.
[7] 唐浩,熊邦书,欧巧凤,等.基于灰度分层和几何分块的蛋白质点匹配算法.生物医学工程学杂志,2014,31(3):487-492,498.
[8] Rogers M,Graham J.Robust and accurate registration of 2-D electrophoresis gels using point-matching.IEEE Trans Image Process,2007,16(3):624-635.
[9] Horaud R,Forbes F,Yguel M,et al.Rigid and articulated point registration with expectation conditional maximization.IEEE Trans Pattern Anal Mach Intell,2011,33(3):587-602.
[10] Noma A,Pardo A.Cesar Jr RM.Structural matching of 2D electrophoresis gels using deformed graphs.Pattern Recognit Lett,2011,32(1):3-11.
[11] Hermans J,Smeets D,Vandermeulen D,et al.Robust point set registration using EM-ICP with information-theoretically optimal outlier handling.2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).2011:2465-2472.
[12] Belongie S,Malik J,Puzicha J.Shape matching and object recognition using shape contexts.IEEE Transactions on Pattern Analysis & Machine Intelligence,2002,24(4):509-522.
[13] 余慧婷,张杰,潘萌.噪声对三维图像归一化互信息配准的影响.中国医学影像学杂志,2011,19(11):844-849.
[14] Wang Z,Bovik AC,Sheikh HR,et al.Image quality assessment:from error visibility to structural similarity.IEEE Trans Image Process,2004,13(4):600-612.
[15] Lemkin P.The LECB 2-D PAGE Gel Images Data Sets.U.S.National Cancer Institute's Laboratory of Experimental and Computational Biology,2015-02-08.http://www.bioinformatics.org/lecb2dgeldb/.
[16] Anon.Imaging and Analysis of 2-D Electrophoresis Gels.Bio-Rad Laboratories,2015-02-08.http://www.bio-rad.com/en-us/ product/pdquest-2-d-analysis/.
(本文编辑 张春辉)
Analysis of Protein Spot Characteristics Based on Similarity Map
There are no intuitive and unified standards for selecting features in existing protein gel image point matching method,for which an analysis method based on similarity map is proposed.Firstly,the definition and generation methods of similarity map were presented.Secondly,trait and merits of features such as coordinate similarity,shapecontext similarity and morphology similarity were analyzed using similarity map method.Finally,comprehensive utilization of multi-features named product-method which has a better effect than mean-method was proposed based on the results.Many experiments using different 2-DE gel images were carried out to prove the validity of similarity map and product-method.The results showed that similarity map could be used for intuitional,effective analysis of matching performance and to guide the selection and comprehensive utilization of multi-features.
Gel electrophoresis imaging; Gel images
10.3969/j.issn.1005-5185.2015.10.016
熊邦书
Key Laboratory of Nondestructive Testing (Ministry of Education),Nanchang Hangkong University,Nanchang 330063,China
Address Correspondence to:XIONG Bangshu E-mail:xiongbs@126.com
国家自然科学基金项目(61163047);江西省自然科学基金项目(20114BAB201036);江西省教育厅科技项目(GJJ14532);南昌航空大学江西省图像处理与模式识别重点实验室基金项目(TX201504005);江西省2013年度研究生创新专项资金项目(YC2013-S219)。
TP391.4
2015-02-09
2015-06-20
中国医学影像学杂志2015年 第23卷 10期:775-779,784
Chinese Journal of Medical Imaging 2015 Volume 23(10):775-779,784
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!