基于遗传算法的多组分光谱解析方法研究

时间：2024-06-01

范贤光　巫梅琴　陈宇欣　方晓玲　胡雪亮　王昕

摘要：光谱解析方法是一种常见的光谱分析方法，广泛用于各种化学计量学领域。现有的解析方法无法处理纯组分未知的应用体系，本文针对该情况，提出了基于遗传算法和最小二乘法的多元组分光谱解析定量分析方法。该方法首先通过遗传算法在混合光谱上寻找未知组分的最优峰位置和最优峰形，得到一组的最优纯组分光谱矩阵，再利用最小二乘拟合曲线，能够快速有效地解析混合光谱。在实验中，对纯组分光谱全未知、纯组分光谱部分未知及不同参数设置下算法的表现进行了討论，分析其对算法收敛速度及计算结果精确性和稳定性的影响。利用该方法对流式细胞仪光谱数据进行处理，解析效果良好，谱线的契合程度高，验证其用于多组分流式细胞仪光谱数据分析的可行性、有效性和精确性。

关键词：光谱解析；遗传算法；最小二乘法；流式细胞仪

中图分类号：TH79 文献标识码：A 文章编号：1007-9416（2018）01-0134-04

随着现代分析仪器的发展，多组分二维数据越来越容易获得，而该数据矩阵的解析也成为分析化学中数据分析方法的研究焦点之一。在过去的几十年里，各种化学因子分析方法都曾成功的应用于二维数据的解析，如渐进因子分析（EFA）主要利用数据曲线依次出现依次消失的特点得到组分浓度窗口信息，但增量计算导致误差累积[1，2]；窗口因子分析（WFA）能更加准确、快速地解析数据，但组分窗口数据的获取需结合多次试验和直观判断[3，4]；直观推导式演进特征投影分析（HELP）循环利用“组分剥离技术”将全部组分分离，实现光谱重叠峰完全解析[5，6]。但是当数据矩阵存在较大噪音或缺乏量测误差信息时，由于以上方法对原始数据的依赖程度大，解析存在一定的困难[7]。

光谱流式细胞分析仪作为细胞和生物分子功能研究的重要平台，可实现对其粒径、浓度和多种生化性状的高分辨率定量表征[8，9]。针对流式细胞分析中大数量级的光谱数据[10]，亟需一种快速估计纯组分光谱且精度高、受噪音水平影响小的分析方法。其中遗传算法（GA）是模拟生物在自然环境下的遗传和进化过程而形成的一种完全不同于传统算法的自适应全局优化搜索算法，具有很强的鲁棒性[11，12]。优化过程不依赖于梯度、导数等辅助信息，仅以个体及其适应度值作为搜索信息，使用概率搜索技术就可在全局空间中自动地对非连续、多峰值、甚至有噪声等复杂问题同时进行多点搜索，自适应地控制搜索过程向最优解方向发展，可以高效率地得到全局最优解或满意解。

本文研究了一种基于遗传算法的流式细胞纯组分光谱的自适应寻优算法，优化纯组分光谱的峰位置、峰宽，结合最小二乘法在减扣谱线均方误差最小的情况下解析，实现流式细胞组分的定量分析。在实验中，验证了该方法在组分数不同、纯组分光谱已未知比例不同和寻优类型不同的情况下均具有可行性、有效性和精确性。

1 理论

1.1 高斯模型

纯组分光谱峰的峰位置、峰宽及峰高可由高斯曲线中具有明确物理意义的参数来描述[13]。用于模拟荧光光谱的高斯模型函数公式为：

其中，A为高斯峰的峰面积；为峰位置；为标准偏差。

但实际的纯组分光谱峰是非对称，以对称的高斯峰来描述具有一定的局限性和误差，因此本文依据分析体系复杂性及分析要求的不同，采取不同的策略。对于纯组分光谱全未知的黑色分析体系[14]，采用高斯峰来拟合光谱峰；对于纯组分部分已知的灰色分析体系[14]，结合已知组分光谱峰的特点，采用高斯峰及已知光谱峰平移来拟合未知光谱峰。

1.2 遗传算法优化

遗传算法从本质上讲是一种群体迭代过程，从一个任意初始（解）群体出发，根据优胜劣汰的原则，通过竞争、选择、繁殖、变异等类似生物遗传进化的作用，从而产生具有新性能、性能更优的新一代群体，并逐步使群体进化到包含或接近最优解的状态[15]。一般的遗传算法由四个部分组成：编码、适应度函数（目标函数）、遗传操作、终止条件。

1.3 基于遗传算法优化下的最小二乘光谱解析

最小二乘法是一种由观测数据估算线性模型中未知参数的方法，其基本思想是选择估算量使得模型输出与实际测量输出之差的平方和达到最小，能有效避免正负误差相抵，且数学处理方便。

基于遗传算法优化纯组分光谱对混合光谱解析的具体步骤为：

（1）编码和初始化群体。本文采用实数编码，每个染色体包含维数据，N为待寻优组分数，2维对应高斯模型的2个参数：峰位置，峰宽。并设定初始种群数目为200。

（2）适应度函数。基于每个峰的，构建N组分的纯光谱矩阵S，利用最小二乘法对混合光谱D进行解析得到各组分含量C。

根据求解的目标，本文建立如下的适应度函数：

其中，是第j个细胞荧光光谱中第i个波点的预期光强值，是第j个细胞荧光光谱中第i个波点的实际光强值，是波长点数，是细胞个数。该适应度函数的物理意义是预估光谱强度与实际光谱强度之间按采样点计算的均方误差的一个变形公式，其本质反映预测谱图与原谱图之间的差异程度。显然，某个体的适应度函数值或某代群体的平均适应度函数值越小，说明该个体或群体接近最优解的概率越大。

（3）遗传操作遗传算子包括选择（Selection）、交叉（Crossover）、变异（Mutation）。本文设定交叉率为0.8，变异率为0.7，使得运行时间缩短，但误差不变。

（4）终止条件重复（3）和（4）步骤，不断提取光谱峰信息，生成新的染色体基因，进而优化染色体的每个基因达到收敛条件，找到最佳的参数解。

（5）最优纯组分光谱组合根据适应度函数值优化搜索空间范围，进一步减小拟合误差，构建最优纯组分光谱组合。

（6）得到最优谱线组合后，利用最小二乘法对原始混合光谱进行解析得到浓度矩阵，实现定量分析。

算法流程图如图1所示。

2 实验验证

用于实验验证的细胞流式光谱主要由6种蛋白质（FITC，QD545，PE，QD605，AF610-PE，PerCP）的光谱组成。流式细胞仪的光谱波长范围为450nm～750nm，每0.1nm取值一次，波长点数为3001，最大强度为100。

图2（a）为1000个细胞的混合光谱信号，图2（b）为第401个细胞的光谱信号，图2（c）为N种荧光的纯光谱信号，图2（d）第401個细胞N种组分的含量。

本文采用高斯峰来拟合组分光谱峰，基于遗传算法对未知组分纯光谱曲线的峰位置、峰宽进行寻优，构建最优组分纯光谱矩阵，每个峰的最大强度均为100。再利用最小二乘法进行解析测定每个细胞每种组分的含量。

遗传参数设定如下表1：

本文基于组分数N=6，对纯组分光谱已知和未知比例不同的情况下进行讨论，解析结果如图3所示。图3（a）为纯光谱完全未知下第401个细胞混合光谱解析结果，图3（b）为已知一个纯光谱下第401个细胞混合光谱解析结果（组分5已知），图3（c）为已知两个纯光谱下第401个细胞混合光谱解析结果（组分1，5已知），图3（d）为已知三个纯光谱下第401个细胞混合光谱解析结果（组分1，3，5已知）。

由图3（a）～（d）可以看出，无论已知多少个纯光谱，本文提出的算法对混合光谱多元组分解析后的拟合信号（加粗黑线）与原始仿真信号（加粗红线）基本重合，虽然略有误差，但均在可接受误差范围内；且随着已知组分光谱个数的增加，谱线的契合程度更加完美。四种比例下第401个细胞N种组分预估含量与真实含量的对比如图4所示。

为了评价算法的性能，采用变形后的均方根误差（RMSE），即遗传算法中的适应度函数作为其指标，然后分别计算上述4种已知和未知组分比例不同的情况下，拟合信号和仿真信号的RMSE，计算结果如表2所示。由表2可知，随着已知组分光谱个数的增加，谱线的均方根误差减小，拟合效果更优。

此外，为了验证本算法对不同总组分数N均适用，本文在纯组分光谱全未知时，对不同组分数（N=4，6，8，10）的混合光谱信号进行解析并计算其均方根误差（RMSE），结果如表3所示。由表3可知，本算法可稳定处理不同组分数的光谱数据，具有通用性。该算法的性能主要取决于纯组分的数量和已知纯组分的个数，而且纯光谱的重叠程度也是影响其性能的一个重要因素。

为进一步验证本文方法，采用流式细胞仪在446～754nm范围内分别对两种编号WH7803和WH7805的蓝细菌进行荧光光谱扫描，所获得的流式荧光光谱信号如图5所示。

首先，利用主成分分析（PCA）得到最佳组分数为6。利用本文所述算法分别对WH7803和WH7805的荧光光谱进行寻优解卷积。其中，根据专家知识，有三种成分为已知，即藻红蛋白（Phycoerythrin， PE）、藻蓝蛋白（Phycocyanin， PC）、别藻蓝蛋白（Pllo-Phycocyanin， APC）。图6（a）为WH7803中某个细胞的荧光光谱信号解卷积结果，图6（b）为WH7805某个细胞的荧光光谱信号解卷积结果。从图中可知，尽管有三种组分的纯光谱未知，本文方法依旧能够获得良好的重构效果，其平均RMSE分别为2.3194和3.1678，与仿真的结果水平相当。

3 结论

本文提出了一种基于遗传算法和最小二乘法的多元组分解析定量分析方法，并用于流式细胞仪荧光光谱的处理。本文通过实验对该算法性能进行了验证，事实说明，使用遗传算法在混合光谱上寻找特征峰的最优峰位置和最优峰形，获取的最优纯组分光谱矩阵能准确有效地实现混合荧光光谱的解析。该算法具有下述优点：不需要确切的解集空间，具有全局搜索特性；各种情况的结果均较为精确，相对误差小；求解效率高，结果稳定性强。此外，该算法也有些不足，比如每次算法运行的代数无规律可循，均有随机性；为防止出现早熟而增加收敛条件，使得运行时间变长。但整体来说，该算法为处理多组分的荧光光谱信号提供了一个强有力的工具。

参考文献

[1]Maeder M， Chem A. Evolving Factor-Analysis for the Resolution of Overlapping Chromatographic Peaks[J].Analytica Chimica Acta，1987，181（3）：287-291.

[2]Whitson A C， Maeder M. Exhaustive evolving factor analysis （E-EFA）[J]. Journal of Chemometrics，2010，15（5）：475-484.

[3]Malinowski E R. Window factor analysis： theoretical derivation and application to flow injection analysis data[J].Journal of Geographical Sciences，1992， 6（1）：29-40.

[4]Zeng Z D， Liang Y Z， Wang Y L， et al. Alternative moving window factor analysis for comparison analysis between complex chromatographic data.[J].Journal of Chromatography A，2006，1107（1-2）：273.

[5]Yi-Zeng Liang ， Kvalheim O M， Rahmani A， et al. Resolution of strongly overlapping two-way multicomponent data by means of heuristic evolving latent projections[J]. Journal of Geographical Sciences，1993，7（1）：15-43.

[6]Jiao L， Wang K， Zhang F， et al. Resolution of Overlapped Capillary Electrophoresis Peaks by Using Heuristic Evolving Latent Projections to Quantify Chloroquine Phosphate and Promethazine Hydrochloride[J].Journal of the Chinese Chemical Society，2008，55（2）：286-291.

[7]邵利民.化学因子分析新型算法及其在分析化学中的应用研究[D].中国科学技术大学，2003.

[8]Goddard G， Martin J C， Naivar M， et al. Single particle high resolution spectral analysis flow cytometry.[J]. Cytometry Part A the Journal of the International Society for Analytical Cytology，2006，69A（8）：842-851.

[9]Futamura K， Sekino M， Hata A， et al. Novel full-spectral flow cytometry with multiple spectrally-adjacent fluorescent proteins and fluorochromes and visualization of in vivo cellular movement[J]. Cytometry Part A the Journal of the International Society for Analytical Cytology，2015，87（9）：830.

[10]Zare H， Shooshtari P， Gupta A， et al. Data reduction for spectral clustering to analyze high throughput flow cytometry data[J].Bmc Bioinformatics，2010，11（1）：1-16.

[11]Goldberg D E. Genetic Algorithm in Search， Optimization， and Machine Learning[J].1989， xiii（7）：2104-2116.

[12]Chen C B， Wang L Y. Modified genetic algorithm for product family optimization with platform specified by information theoretical approach[J]. Journal of Shanghai Jiaotong University，2008，13（3）：304-311.

[13]Yie L I， Qing-Kai L I， Zhou Z H， et al. Application of Gauss curve fitting in single-channel sequential scanning ICP-AES[J].Journal of Changchun Post & Telecommunication Institute，2002.

[14]Liang Y Z， Kvalheim O M， Manne R. White， grey and black multicomponent systems ： A classification of mixture problems and methods for their quantitative analysis[J]. Chemometrics & Intelligent Laboratory Systems，1993，18（3）：235-250.

[15]BIAN Xia， MI Liangb，邊霞，等. Development on genetic algorithm theory and its applications遗传算法理论及其应用研究进展[J].计算机应用研究，2010， 27（7）：2425-2429.