当前位置:首页 期刊杂志

基于荧光光谱结合宽度学习的白菜农药残留量检测方法

时间:2024-05-24

刘翠玲 李佳琮 孙晓荣 殷莺倩 张善哲 吴静珠

(1.北京工商大学人工智能学院, 北京 100048;2.北京工商大学食品安全大数据技术北京市重点实验室, 北京 100048)

0 引言

实际农作物生产中对农药的过分依赖及不合理使用,会导致农药残留,危害人类的身体健康[1]。随着生活水平的逐渐提高,人们也越发重视食品安全、健康、环保等问题。因此,对常食蔬菜中的农药残留量进行检测十分重要。目前,国内外常用的农药残留检测主要采用气相色谱法、高效液相色谱法等[2-3]。这些方法适应范围广,但操作的过程相对复杂、效率低, 无法实现现场快捷、有效检验。

近年来,相关学者利用典型的光谱技术对农产品中农药残留进行了研究。张瑛等[4]采用太赫兹光谱检测大米中沙蚕毒素类农药残留,相关系数达0.959 9。然而,太赫兹等红外光谱对极性化学键的信号比较强,不适宜对含水样本进行检测。CHEN等[5]将偏最小二乘法(Partial least squares regression, PLSR)应用于表面增强拉曼光谱技术定量检测乌龙茶中多菌灵含量,决定系数达0.964。LIU等[6]采用PLSR成功构建了茶叶中苯醚甲环唑的表面增强拉曼光谱测定模型,相关系数达0.97。但常见的拉曼光谱由于散射强度较小,需要利用繁琐的前处理才能对农药残留等痕量精准检测。

荧光光谱技术具有灵敏度高、选择性好、价格低廉等优势,目前在农药含量检测领域飞速发展。GUO等[7]利用荧光光谱检测水中的西维因和百菌清浓度。JI等[8]采用PLSR构建了水中生霉素、多效唑、博斯卡利等多种农药含量检测模型,决定系数达0.98。然而,荧光技术现有研究集中于检测水溶液中的农药,对蔬菜中农药残留量的检测较少。宽度学习系统(Broad learning system, BLS)是CHEN等[9]近年来提出的一种有效解决小样本训练问题的新型算法。MA等[10]应用BLS对高光谱遥感图像进行分类;乔继红等[11]利用BLS与近红外光谱,构建了国外奶粉的判别模型。然而,现有研究局限于应用BLS进行分类,且鲜有研究将该模型迁移至其它光谱检测领域。该算法呈扁平结构,横向扩展,具有迭代收敛速度快、泛化能力强等优势。在经过大量调研与理论研究后,尝试在荧光光谱技术检测白菜中吡虫啉残留的定量研究中,引入宽度学习系统。

吡虫啉是一种新烟碱类杀虫剂,因其高效、低廉等优点,被广泛应用于农作物生产种植中。本文以白菜中吡虫啉残留为研究对象,利用荧光光谱技术结合不同数据处理方法测定吡虫啉农药残留量。将BLS引入荧光光谱的数据建模,并与线性模型PLSR、非线性模型支持向量机(Support vector machine, SVM)以及深度极限学习机(Deep extreme learning machines, DELM) 进行对比分析,验证BLS在荧光光谱数据分析的可行性,并获得吡虫啉含量的最优检测模型,拟为开发在线检测蔬菜中农药残留量系统提供理论依据。

1 材料与方法

1.1 样本制备

选用20%的可溶性农药吡虫啉(市售,深圳诺普信农化股份有限公司)。将市购的普通大白菜用去离子水洗净晾干后粉碎,通过砂芯过滤获取蔬菜汁液为背景溶剂,将农药与蔬菜汁经涡旋混合器充分混匀。配制出吡虫啉(国标要求最大残留量0.2 mg/kg)质量比为0~5 mg/kg的13个梯度样本总计130个。该质量比范围分布在国标规定最大残留量附近,具有实际意义。

1.2 实验仪器与其采集参数

使用爱丁堡FS5型荧光光谱仪(英国),采集130个样品的荧光光谱。荧光光谱的激发光源选用脉冲氙灯,光电检测器选用PMT-900型光电倍增管。三维荧光光谱采集,设置激发波长间隔为10 nm,发射波长间隔为2 nm,激发波长λEx为350~550 nm,发射波长λEm为400~600 nm。荧光发射光谱采集,设置采集步长为3 nm,采集范围为430~610 nm。

1.3 数据分析方法

1.3.1样本划分

在模型校准中,样本被分为校准集和预测集,使用基于联合x-y距离(SPXY)的样本集分区的样本分配方法,该方法考虑样本光谱和样本参考值的差异[12]。将样本按照比例3∶1划分校正集和预测集。其中,校正集与预测集分别包含97个和33个样本用于构建白菜中吡虫啉含量预测模型。数据划分具体情况如表1所示,校正集的吡虫啉含量涵盖预测集的范围,说明校正集可以建立稳健的校正模型,且预测集可以有效对模型进行预测。

1.3.2光谱预处理

由于使用荧光光谱仪所获取的数据信号除了含被测样本待测成分信息外,还包括各种仪器的噪声,如高频随机噪声、基线漂移、杂散信息、样本背景等无关信息[13]。因此,采用合适的光谱预处理方法可以提取有效的光谱信息,提升光谱质量。在全光谱范围内使用一阶导数(First-order derivative, D1)、二阶导数(Second-order derivatives, D2)、标准正态变换(Standard normal variable, SNV)、S-G卷积平滑(Savitzky-Golay, S-G)、多元散射校正(Multiple scattering calibration, MSC)以及连续小波变换(Continuous wavelet transforms, CWT)6种方法对原始光谱数据进行预处理。D1和D2是光谱分析中常用的基线校正和光谱分辨预处理方法,倒数光谱可以有效地消除其他背景的干扰,提高分辨率和灵敏度[14]。SNV通过单独对每个样本的光谱进行校正,使其每个波段的吸光度均符合正态分布[15]。S-G卷积平滑法通过多项式来对移动窗口内的数据进行多项式最小二乘拟合,其实质是一种加权平均法[16]。MSC通过减少样本间的基线偏移,使其能够充分保留样本中与白菜吡虫啉相关的光谱吸收信息[17]。CWT是一种时频变换方法,较适用于分析非平稳信号[18]。

1.3.3光谱特征提取

核主成分分析(Kernel principal component analysis, KPCA)是对主成分分析(Principal components analysis,PCA)算法的非线性扩展。PCA降维原理是基于线性分析理论,而KPCA是在PCA的理论基础上采用非线性核函数Kernel参与数据分析,因此能够挖掘到数据集中蕴含的非线性关系[19]。无信息变量消除(Uninformative variable elimination, UVE)可以避免过度拟合,提高模型的预测能力。在这种方法中,通过向原始变量添加人工随机变量来获得一个新的数据集。模型通过留一交叉验证进行优化。因此,重要性低于人工随机变量的谱系变量被删除[20]。

1.3.4BLS模型

宽度学习系统(BLS)是基于随机向量函数链接网络(RVFLNN)的一种具有通用逼近能力的新型建模方法[21],具体结构如图1所示。

图1 宽度学习系统结构图Fig.1 Broad learning system structure diagram

BLS隐藏层的输入矩阵是由映射节点层(Mapped feature)和增强节点层(Enhancement nodes)组成,系统第i组映射特征及其构成的集合Zi可表示为

Zi=φi(WeiX+βei) (i=1,2,…,n)

(1)

Zn=[Z1Z2…Zn]

(2)

式中φi(·)——特征映射函数

Wei——第i个最佳权值向量

βei——对应于Wei的偏置向量

Zn——特征节点

X——BLS模型的输入矩阵

增强节点是映射节点通过相同映射与非线性激活得到的,其中系统第j个增强节点及其构成的集合Hj可表示为

Hj=δj(WhjZn+βhj) (j=1,2,…,d)

(3)

Hd=[H1H2…Hd]

(4)

式中δj——映射激活函数

Hd——增强节点

Whj、βhj——特征映射至增强节点的权值向量和偏置向量

白菜中吡虫啉含量的预测值是将输出权值矩阵通过回归广义逆计算得到的,计算过程可表示为

Y=[Zn|Hd]W

(5)

式中 [Zn|Hd]——宽度学习系统输入

W——从特征节点到增强节点再到系统输出的权值矩阵

Y——吡虫啉含量预测值

1.3.5模型评价

选择决定系数(Coefficient of determination,R2)和均方根误差(Root mean square error,RMSE)作为白菜中吡虫啉农药残留含量检测模型的评价参数。R2越接近1,表明荧光光谱信息与白菜中吡虫啉的相关性越好,RMSE越小,表明预测中产生的误差越小,即光谱建模效果越好[22]。

2 结果与分析

2.1 三维荧光光谱采集结果

为了获得吡虫啉农药的最佳激发波长,吸取5 mL纯农药并扫描其三维荧光光谱。图2为吡虫啉溶液三维荧光光谱图和对应的等高线图,可以看出,在λEx、λEm为400、480 nm存在一个荧光峰,所以吡虫啉溶液的最佳激发波长为400 nm,最佳发射波长为480 nm。

图2 寻找吡虫啉最佳激发波长的三维荧光光谱图Fig.2 Three-dimensional fluorescence spectra for finding optimal excitation wavelength of imidacloprid

2.2 荧光发射光谱采集结果

选用吡虫啉溶液的最佳激发波长400 nm,扫描白菜中农残溶液的荧光发射光谱,共得到波段数为61维的光谱数据。为了更清晰地分析不同浓度农残样本的光谱差异,将各质量比下的10组数据取平均,并绘制图3中的质量比变化对比曲线。可以看出,随着白菜汁中吡虫啉质量比的增加,对应的荧光强度也随之增长。在波长490 nm和580 nm处分别存在2个尖峰,对应表示为青光和黄光。通过分析发现荧光光谱信息与样本中农药含量存在规律变化,因此理论上可以通过荧光数据表征白菜汁中吡虫啉的含量。

图3 不同吡虫啉质量比的平均发射荧光光谱Fig.3 Mean emission fluorescence spectra of different imidacloprid mass ratios

2.3 数据预处理结果

表2 不同预处理的建模结果Tab.2 Modeling results with different pre-processing

2.4 光谱特征降维结果

农药残留样品的成分复杂,光谱信息量大,通过特征降维可以简化模型,提高预测的稳定性。图4a为KPCA的降维过程图,成分数累计到第17维时累计贡献率增长趋于平稳,此时累计贡献率为95.65%。说明前17维数据已包含了大部分有效信息,故选择前17维主成分量当作预测模型输入维主成分量。

图4 光谱特征降维过程图Fig.4 Diagrams of spectral feature downscaling process

在添加噪声后,UVE根据光谱变量和噪声组成的自变量矩阵,对目标矩阵回归系数的统计分布进行变量判断。图4b为UVE的变量选择过程中的加噪筛选过程曲线图,图中左侧曲线为农药残留样品的光谱变量矩阵,右侧为添加与光谱变量数目相同的随机噪声矩阵,2条水平虚线表示随机噪声的最大和最小阈值,两线之间为剔除的无关变量。最终通过UVE选择出9个特征波长。

2.5 基于BLS的吡虫啉含量预测结果

白菜中吡虫啉残留样本的光谱数据采用最佳预处理方法MSC,然后分别进行KPCA和UVE特征降维,依次将降维后的17维与9维光谱数据送入BLS模型。BLS模型的参数为特征窗口数量n、窗口内的特征数量k以及增强节点数目m。实验选用Leaky ReLU为BLS的激活函数,参数设置n=10,k=30,m=300。表3为基于全波段、KPCA特征和UVE特征的BLS模型的建模结果。可以看出,2种降维方式均能有效提升模型精度,说明全波段光谱存在冗余信息,数据集的压缩能够精炼出与农药残留量相关性的光谱信息。其中,基于UVE-BLS组合模型的预测结果最佳,图5a显示了该模型真实值与预测值的线性拟合结果,校正集与测试集决定系数分别为0.970和0.949。此外,UVE-BLS组合模型相比全波段建模的测试集决定系数增加0.07,均方根误差降低0.185 mg/kg,说明UVE所提取的特征波段最能表征白菜中吡虫啉的含量,这种通过添加噪声来消除不提供信息变量的方式适用于荧光光谱检测农药残留量。图5b更加清晰地展示了预测集的样本分布以及吡虫啉含量真实值和预测值的偏差,可以看出当农药质量比低于1 mg/kg时,预测偏差较小,预测值均分布在真实值附近。当质量比远超国家标准0.2 mg/kg时,模型稳定性有所下降,预测结果虽然出现明显浮动,但也始终保持了正确判别农药残留量超标的基础。综上所述,荧光光谱法结合BLS模型监测白菜中吡虫啉含量是可行的,UVE所选择的特征波长可作为表征农药残留量的光谱特征。

图5 UVE-BLS建模结果Fig.5 Diagrams of UVE-BLS modeling results

表3 不同降维方法的BLS模型结果Tab.3 Results of BLS models with different dimensionality reduction methods

2.6 与其它数据建模算法比较

为了评估BLS算法建立荧光光谱预测白菜中吡虫啉含量的性能,将基于最优特征波长UVE建模的BLS模型与经典线性机器学习模型(PLSR)、经典非线性模型(SVM)以及基于深度学习的改进非线性模型(DELM)进行对比分析。本研究中PLSR的可调参数为主成分数,决定了建模分析的变量个数,该参数的最优取值均采用二十折交叉验证获得[23];SVM采用RBF核函数,通过设置惩罚因子c和核函数参数g调节模型精度[24];DELM模型设置sigmoid为激活函数,可调参数为3个隐含层的节点数[25]。由表4可以看出,非线性模型的预测精度均优于PLSR,说明光谱信息与农药浓度之间的关系较复杂,并不能通过线性关系表征二者的联系。其次,实验表明BLS模型的准确度最高,能够针对数据特征不多的小样本进行较为精准预测,证实了BLS模型在光谱检测食品含量领域的可行性。分析BLS模型优于其他模型的原因,可能是因为BLS模型是一种新型的不依赖深度结构的宽度神经网络,该算法提升网络精度的方式就是通过横向增加“宽度”,与深度学习模型的增加层数相比,BLS能有效避免过度学习[26-27]。与线性模型相比,它又能很好地拟合非线性数据。实际预测中BLS能通过逐渐逼近的方式,不断提升预测精度,使其正确性满足精度要求[28]。

表4 不同建模算法的结果Tab.4 Results of different modeling algorithms

3 结论

(1)利用三维荧光光谱测定吡虫啉,在波长400 nm激发和波长480 nm发射处呈现荧光特征峰。

(2)结合D1、D2、SNV、S-G、MSC、CWT共6种算法分别对原始光谱数据进行预处理。相较而言,基于MSC的预处理效果最佳。

(3)基于KPCA和UVE分别得到了17、9个特征变量,2种降维方法均有效剔除了与建模相关度低的光谱波段,提高了信噪比与后期建模的精度。其中,UVE算法消除冗余变量的性能最佳。

(5)研究结果表明荧光光谱技术检测白菜中吡虫啉含量是可行的,验证了BLS模型在光谱检测领域的适应性。该方法可为在线检测农药残留量系统的开发提供理论依据。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!