时间:2024-12-27
宁荣华,粟晖,周丹丹,姚志湘,2,3*
(1 广西科技大学,生物与化学工程学院,广西 柳州 545006;2 广西科技大学,广西糖资源绿色加工重点实验室,广西 柳州 545006;3 广西蔗糖产业协同创新中心,广西 南宁,530004)
拉曼和红外等分子振动转动光谱信息丰富,具有更好的选择性。拉曼光谱非破坏、非接触性测量优势,结合多组分分析方法,已经显示出低成本、高通量的显著优势,在多组分体系的定性定量分析正在越来越引起关注[1]。例如De Beer等人[2]将拉曼光谱应用于过程分析中水相悬浮液的定量在线监测。Castro等人[3]采用拉曼光谱对花生油掺假进行定性定量分析。Jone等人[4]利用拉曼光谱完成了止痛药中活性药物成分(API)(乙酰水杨酸、布洛芬和扑热息痛)的定性分析和定量分析。
多变量统计分析方法中,ICA近年来颇受重视[5]。ICA作为盲信号处理方法,与PCA和PLS等化学计量学常采用的二次建模方法相比,从原理上说,没有先验知识要求,有可能实现直接建模,使得建模工作量具有本质上的缩减。ICA根据源信号的统计独立性恢复出体系各个独立组分[6]。ICA在光谱领域的应用案例逐渐增多,包括拉曼[7]、中红外[8]、三维荧光[9-10]、色谱[11]、核磁共振[12]等。例如Garcia等人[13]将ICA应用于三维荧光来分析面包面团的成分,得到的3个信号均有相应的最大荧光匹配。Clément等人[14]组合ICA-ML、ICA-JADE和FastICA三种方法,并结合拉曼光谱进行低浓度稀释混合物的组分识别。Monakhova等人[15]使用新的ICA算法(SNICA)对复合混合物的紫外光谱进行源成分的分离,得到了估计谱和参考谱之间接近1的相关系数,证明了SNICA算法可以有效地恢复复合混合物中各成分的纯成分光谱。
尽管直接ICA分离多组分混合光谱取得了令人感兴趣的结果,但是直接ICA技术还存在一些问题。姚志湘等人[16]前期针对ICA自身的随机性,如信号分量的分离顺序不一致或幅值和源信号不一致等提出了解决方案。但是在重叠性较强的信号源,采用ICA算法直接分离效果仍然不尽人意,近期又论证了ICA性能难以提升的根本原因是源信号对统计独立偏离导致,提出将测量值映射到高维导数空间,很好地实现了四种丁醇异构体红外光谱的分离[17]。前期工作表明,改进的ICA分离可以在先验信息缺乏的前提下,实现混合信号中各个组分真实光谱的纯化分离,即不需要明确知道各个组分的含量,仅通过直接测量到的混合光谱,就可以获得体系中各个组分的真实光谱。而以往通过多元曲线分辨来实现该目的,必须知道各个混合光谱中各组分的确定含量,这无疑大大地增加了建模成本[18]。
本文针对药物反向工程的实际需求,选取布洛芬、硬脂酸、聚乙烯吡咯烷酮K30、淀粉和蔗糖五种组分复配体系,非破坏性采集体系的拉曼光谱,采用求导、ICA分离,逐级剔除分量后再分离的DSCS-ICA分离方法,进行组成判断,实现处方成分剖析。
多组分混合光谱X可认为是一个向量集,由源信号S,即各个组分的纯光谱构成的向量集,与各组分含量A构成[17]:
X=A·S(1)
S=[s1,s2,…,sn];A=[aij],元素aij是第i个样品中第j个组分的含量;X是测量到的混合光谱,X=[x1,x2,….,xn]。
FastICA是一种常用的ICA算法,通过找出分离矩阵W,求解独立分量(IC):
IC=W·X=W·A·S
(2)
其中W是A的逆矩阵,即W=A-1,当I=W·A(I是单位矩阵)时,则有:
IC=S
(3)
源光谱实现分离。FastICA算法得到的分离矩阵W可以实现分量的提取。
但是,ICA分离存在一个前提,即S集中各个分量需要是正交独立的,而实际分量往往不满足该条件,无法得到无偏的正确分量。这是ICA在实际应用中会出现程度不同的偏差的根本原因。
前期的工作表明,将原始测量光谱映射至高阶导数空间,可以满足源信号正交要求,从而得到令人满意的W矩阵,实现源信号的无偏分解[17]。但是对于小型或便携式光谱仪采集的拉曼数据,由于受到噪声和取样点的限制,超过二阶的求导比较困难[19]。因此,本研究进一步提出了通过低阶求导的DSCS-ICA算法。
FastICA以及改进策略的求解目标都是W。真正可用的W矩阵对于光谱的不同波段和不同阶数的导数都是一致的。那么,可以引申出一个新的策略。在某个波段上,某个组分与其他组分具有更大的差异,配合一阶导或二阶导,可以使得该组分源信号与其他组分的集合趋近正交。去除某个波段上得到的无偏分离量,将剩余的分量继续在另一个波段上分离,直至所有的组分分离完成。
DSCS-ICA算法求导表达如下,式(1)写成式(4)[17]:
X(i,λ)=A(i,j)·S(λ,j)
(4)
混合光谱中的每个谱x(λ)是由每个纯成分在各种贡献下的总和:
x(λ)=a1s1(λ)+a2s2(λ)+…
(5)
x(λ)的n阶导数:
d(n)x(λ)=a1d(n)s1(λ)+a2d(n)s2(λ)+…
(6)
其中S(n)=[d(n)s1(λ),d(n)s2(λ),…],因此:
X(n)=A·S(n)
(7)
DSCS-ICA算法的具体步骤如下:
步骤1:直接采集光谱信号,将原始数据构成矩阵混合光谱X,对X进行白化预处理去除矩阵混合光谱间的相关性,然后进行主成分分析(PCA)判断组成,再对X进行一阶求导,得到X(1),ICA分离得到分离矩阵W1,解出独立分量(ICS),如式(2)。
步骤2:求出ICs与源光谱间的相关系数r,若相关系数r中有达到0.99以上的分量,则从混合光谱X中剔除相关系数r为0.99以上的对应ICS,得到一个新的混合光谱Xi(例:X1=X-IC1),重复步骤1,依次分离出各分量。
步骤3:若步骤2中相关系数r均小于0.99,则调整计算的光谱波段,重复步骤1~步骤2。
步骤4:直到最后两个组分,至少有一个ICS的相关系数r达到0.99以上,则终止算法。
本文对于混合信号分离效果的评价标准是一阶计算结果的相关系数r,其原理已表达在早期工作文献中[16]。
仪器:智能拉曼光谱仪(型号ExR610,西派特(北京)有限公司)。
试剂:布洛芬(AR,国药集团化学试剂有限公司),蔗糖(AR,罗恩试剂有限公司),硬脂酸(AR,国药集团化学试剂有限公司),聚乙烯吡咯烷酮K30(AR,国药集团化学试剂有限公司),红薯淀粉(食品级)。
采集布洛芬、聚乙烯吡咯烷酮K30、硬脂酸、蔗糖和红薯淀粉的拉曼数据。依照市售布洛芬胶囊的成分,按表1比例制备了12份布洛芬胶囊样本,并采集其光谱。采集参数为:积分时间9 s;中心波长532 nm;功率等级9;采集光谱范围:200 cm-1~3400 cm-1,平行采集3点1次,取平均值。
表1 布洛芬胶囊样本中各组分所占比例表Table.1 The proportion table of each component inIbuprofen Capsule samples
分别采用FastICA和DSCS-ICA法对12份胶囊样本的混合光谱数据矩阵进行分离,以相关系数r判断分离效果。
布洛芬(AR)、蔗糖(AR)、聚乙烯吡咯烷酮K30(AR)、硬脂酸(AR)和红薯淀粉(食品级)五种组分在200 cm-1~ 3400 cm-1范围内的3200个数据点,如图1所示。
图1 五种组分的拉曼光谱。(a) 蔗糖;(b) 淀粉;(c) 聚乙烯吡咯烷酮K30;(d) 硬脂酸;(e) 布洛芬Fig.1 Raman spectra of five pure components.(a) Sucrose;(b) Starch;(c) Polyvinylpyrrolidone K30;(d) Stearic Acid;(e) Ibuprofen
从图1可以看到,五种组分的全段拉曼光谱间存在差异,但在各个波段上组分间都有重叠,不满足ICA统计独立假设[20]。求出五种组分间的相关系数r,见表2,可以看出组分间均存在一定的统计相关性。其中,布洛芬与淀粉、蔗糖和硬脂酸间均偏离正交要求,而淀粉和蔗糖的拉曼光谱间的相关系数r为0.8322,相似度较大。
表2 五种组分拉曼光谱之间的相关系数rTable.2 The correlation coefficientr between the Raman spectra of the five components
采用FastICA2.5[6]对12份胶囊样本的全段混合光谱矩阵(200 cm-1~3400 cm-1)进行分离得到五个IC,表3记录了ICS与源光谱的相关系数r。在表3中,从整体来看五个IC的r值均小于0.95,其中淀粉对应分量的r值是0.6989,布洛芬对应分量的r值为0.7863,说明光谱如果存在显著的重叠部分,FastICA算法无法得到可靠的结果。
调整计算波段,选取260 cm-1~1700 cm-1波段1440个数据点进行光谱处理,FastICA2.5分离效果有较大改善,见表3,相关系数r均大于0.91,但分离结果仍然与真实的纯光谱存在显著差异。
表3 FastICA2.5算法解出的ICS与源光谱间的相关系数rTable.3 The correlation coefficient r between ICS and the source spectrum solved by FastICA2.5 algorithm
在图2中绘制了源光谱和区间选取FastICA 2.5分离解出的各分量的归一化对比图。对照源光谱,图2 (b)中布洛芬分量在波段1100 cm-1~1300 cm-1范围存在明显失真,硬脂酸分量在波段300 cm-1~1700 cm-1范围内显著失真。
图2 FastICA2.5算法解出的分量与源光谱归一化对比图。(a)源光谱;(b)FastICA2.5算法解出的分量Fig.2 Normalized comparison diagram of the component solved by FastICA2.5 algorithm and the source spectrum.(a)Source spectrum;(b) The component solved by FastICA2.5 algorithm
进一步采用本文提出的DSCS-ICA算法,选取260 cm-1~1700 cm-1波段数据作为矩阵混合光谱X,依照2.2中DSCS-ICA算法的分离步骤,先对X进行白化预处理,其次进行PCA分析判断组成为5,然后对X进行一阶求导,ICA分离得到5个分量,求出各分量与源光谱的相关系数r,其中IC3和IC4具有最大的确定性,相关系数r均达到了0.993以上,分别对应淀粉(r=0.9940)和硬脂酸(r=0.9936)。但是布洛芬对应的分量相关系数从0.9881减小到0.9845,聚乙烯吡咯烷酮K30(r=0.9598)和蔗糖(r=0.9691)对应分量的相关系数也不理想。
接下来从矩阵混合光谱X中剔除淀粉分量和硬脂酸分量得到新的矩阵混合光谱X1,对矩阵混合光谱X1进行一阶导,ICA分离得到3个分量,其中对应布洛芬的IC相关系数最大为0.9945;从矩阵混合光谱X1中剔除布洛芬分量得到X2,对X2进行一阶导,ICA分离得到2个分量,其中聚乙烯吡咯烷酮K30具有最大确定性,与其对应的IC间的相关系数r高达0.9982,与蔗糖对应的IC间相关系数r为0.9831。除蔗糖外,采用DSCS-ICA算法分离出的其他4个分量与其对应源光谱的相关系数>0.99,说明可显著确定体系组成,与FastICA2.5相比,其分离效果有了显著改善,结果具有较好的可靠性。结果见表4。
表4 DSCS-ICA算法解出的ICS与源光谱间的相关系数rTable.4 The correlation coefficientr between ICS and the source spectrum solved by DSCS-ICA algorithm
接下来从矩阵混合光谱X中剔除淀粉分量和硬脂酸分量得到新的矩阵混合光谱X1,对矩阵混合光谱X1进行一阶导,ICA分离得到3个分量,其中对应布洛芬的IC相关系数最大为0.9945;从矩阵混合光谱X1中剔除布洛芬分量得到X2,对X2进行一阶导,ICA分离得到2个分量,其中聚乙烯吡咯烷酮K30具有最大确定性,与其对应的IC间的相关系数r高达0.9982,与蔗糖对应的IC间相关系数r为0.9831。除蔗糖外,采用DSCS-ICA算法分离出的其他4个分量与其对应源光谱的相关系数>0.99,说明可显著确定体系组成,与FastICA相比,其分离效果有了显著改善,结果具有较好的可靠性。
将DSCS-ICA法的结果归一化,并与源光谱归一化结果作图对比,如图3。从图可以看出,DSCS-ICA法解出的分量峰形与源光谱基本吻合,硬脂酸和布洛芬的峰形不再出现显著失真,基线明显改善,说明DSCS-ICA可以有效的进行组分判断。
图3 DSCS-ICA算法解出的分量与源光谱归一化对比图。(a)源光谱;(b)DSCS-ICA算法解出的分量Fig.3 Normalized comparison diagram of the component solved by DSCS-ICA algorithm and the source spectrum.(a)Source spectrum;(b) The component solved by DSCS-ICA algorithm
图4为FastICA2.5法和DSCS-ICA法解出的布洛芬分量与其对应的源光谱对比。
图4 布洛芬分量与其源光谱的归一化对比图。(a) 布洛芬源光谱;(b) FastICA2.5算法分离的布洛芬分量;(c) DSCS-ICA算法分离的布洛芬分量Fig.4 Normalized comparison of Ibuprofen component and its source spectrum.(a) Ibuprofen source spectroscopy; (b) Ibuprofen component separated by FastICA2.5 algorithm;(c) Ibuprofen component separated by DSCS-ICA algorithm
从整体上看,DSCS-ICA法解出的布洛芬分量的光谱与真实纯组分源光谱已经具有良好的一致性,而FastICA2.5分离的布洛芬分量的光谱在拉曼位移1132 cm-1、1299 cm-1和1442 cm-1左右都存在较大的差异;从局部放大1096 cm-1~1146 cm-1和1428 cm-1~1448 cm-1区域可以看出DSCS-ICA法获得的分量与真实纯组分源光谱之间的差异较小,而FastICA2.5得到的分量与真实纯组分源光谱间失真明显。结果表明DSCS-ICA算法改善了目前多采用的FastICA2.5的分离性能。
拉曼光谱具有丰富的信息,谱峰具有一定的独立性,对于混合拉曼光谱,采用本文提出的求导、ICA分离,逐级剔除分量后再分离的DSCS-ICA方法,相比直接FastICA2.5具有更好的分离效果。本文通过对布洛芬胶囊的拉曼光谱进行分析,发现采用FastICA2.5法解出源光谱的近似估计与源光谱间的相关系数r均小于0.95,而采用DSCS-ICA法解出源光谱的近似估计与源光谱间的相关系数r达到了0.99以上,证明了当源光谱存在显著重叠时,采用DSCS-ICA法能提高FastICA2.5的分离性能,实现了重叠光谱的有效分离。DSCS-ICA法对于拉曼光谱的分离结果具有可靠性和良好的对应性。采用DSCS-ICA法可用于原研药处方成分剖析,为仿制药的反向研发提供了一种有效手段,本方法也适用于其他光谱的多组分定性分析。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!