时间:2024-05-22
孔维恒,曾令伟,饶宇,陈莎,王旭,杨燕婷,段忆翔*,樊庆文*
(1. 四川大学机械工程学院,四川 成都 610065; 2. 成都艾立本科技有限公司,四川 成都 611930)
激光诱导击穿光谱(LIBS)是一种原子发射光谱技术,其原理是以高能激光脉冲直接作用在样品上,诱导样品产生等离子体,利用光谱仪对等离子体发射光谱进行采集分析,从而识别样品中元素组成和含量。LIBS 具有系统结构简单、微损伤检测、多元素同时检测、可进行原位分析等诸多优点[1-3],已经被应用于冶金分析[4-5]、地球科学[6-8]、生物科学[9-11]等诸多领域。特别是近些年来,中国在新一轮找矿突破战略行动中提出重点聚焦1500 米以浅矿产资源的勘查,LIBS 技术因其原位分析和快速检测的优点,从而被广泛用于地质探测[12-13],并且随着手持式LIBS 仪器研发技术不断地成熟,LIBS 检测也逐渐从实验室走向地质勘探现场,帮助实现地质找矿新突破。但是岩石样品中元素成分复杂多样[14-15],在LIBS 分析检测过程中由于基质效应和光谱波动会严重影响分析结果的准确性[16-17],从而会对不同岩性的岩石元素定量分析形成一定的困难。迄今为止,LIBS 研究人员已经进行大量的研究来解决这些问题,从2001 年到2019 年,每年发表的LIBS 文章数量迅速增长,达到7336 篇,LIBS 的发展正向着更高灵敏度、更高分辨率、更低检出限不断进发。
国内外学者针对这些问题进行了诸多研究,其中包括LIBS 定量算法[18-19]、LIBS 信号增强[20-21]、时间分辨LIBS[22]、LIBS 图像辅助[23-24]等领域,用于探究和减小基质效应带来的定量不准确的问题。Agresti 等[18]使用偏最小二乘回归(PLSR)和多层感知器(MLP)神经网络建立LIBS 定量分析模型,将32 个石灰石样品分成两组进行校准和验证,所获结果一致性证明了该模型在石灰石定量方面具有重大前景。Pagnotta 等[19]改进Franzini 和Leoni 算法(FL 算法)用于纠正LIBS 在地质材料成分测定中的基质效应,结果得出FL 算法模型准确率高于单变量模型和PLS 模型,且比人工神经网络的算法更简单和更可控。Hussain 等[20]利用磁约束和双脉冲-LIBS(DP-LIBS)两种增强技术对铝靶的LIBS 进行对比研究,减小了基质效应对目标元素定量的影响,同时提高了LIBS 灵敏度。Yang 等[21]构建了离焦共线双脉冲LIBS 实验系统,并开展了预烧蚀和再加热等离子体光谱增强的相关实验,用于增强LIBS 信号强度。Lu 等[22]研究了时间分辨率LIBS 和卷积神经网络(CNN)的结合,以改善土壤中K 元素的测定,通过提取和整合波长和时间维度的信息,提升了定量分析的准确性。Yan 等[23]提出一种图像定量分析(IQA)方法,R2由常规频谱定量分析(SQA)方法的0.9833 提高到IQA 方法的0.9996。Li 等[24]使用相应的图像强度对谱线强度进行标准化,用于水下LIBS 定量分析,平均相对标准差(RSD)从10.71%显著降低至5.76%,为解决由基质效应造成的定量检测困难提供了新的思路。上述学者所采用的方法,在一定程度上减小了基质效应的影响,提升定量分析的准确性,但忽视了不同岩性之间基质的差异,以及相同岩性之间基质的相关性,这样就会导致相同含量的元素在不同岩性的样品中具有不同的LIBS信号强度,从而影响分析结果的准确性。
本文提出了一种先预分类再定量的分析方法,根据不同类型岩石样品的基质,使用kNN 和SVM双层分类模型对样品进行分类,先将所有样品数据使用kNN 算法将其分为碳酸盐与硅酸盐两类,再对大类中的样品使用SVM 算法将其细分为6 类,获得基质相互匹配的样品[25],然后对分类后的样品数据使用各自最合适的数据预处理方法进行预处理,建立校准曲线,对测试集的样品含量进行预测。该方法为地质探测等领域中岩石定量分析提供参考价值和借鉴意义。
本实验使用由成都艾立本科技有限公司提供的来自6 类岩性的共39 个国标岩石和国标岩石混合粉末样品,编号为ALB1~ALB39,包括泥页岩(2 个)、火成岩(4 个)、白云岩(6 个)、石灰岩(14 个)、石膏岩(5 个)和砂岩(8 个),其中国标岩石混合样品采用相同岩性的两种国标岩石样品按照比例混合得到,这些岩石样品包含不同梯度的目标元素的含量,可以更好地对不同浓度下的元素进行定量分析研究。表1 展示了不同岩石样品的编号、岩性以及4 种目标元素的具体含量,其中元素含量由成都艾立本科技有限公司在第三方检测机构测得后提供。称取1.0g 样品,使用压片机在8MPa 压强下保压20s 压制成直径20mm 薄厚均匀的片状样品。
表1 39 个国标岩石样品和国标混合岩石样品的种类及Si、Ca、Mg、K 元素含量Table 1 Types and elemental contents of Si,Ca,Mg and K for 39 national standard rock samples and national standard mixed rock samples.
本实验基于台式激光诱导击穿光谱仪(厂商:成都艾立本科技有限公司,型号:LT02A),该仪器采用1064nm 的Nd:YAG 激光器,重复频率1Hz,单次脉冲能量100mJ,仪器光谱探测范围185~960nm,光谱分辨率0.1nm。样品放置于三维自动样品台,激光束由聚焦透镜聚焦于样品表面诱导产生等离子体,等离子体的发射光由光纤探头接收传输至光谱仪,形成具有8192 个光谱强度数值的光谱图。为减少连续背景对光谱质量的干扰,本实验将延时时间设置为1.5μs。
针对每个岩石样品,随机地在样品表面20 个位置采集光谱。为减少激光能量波动对光谱的影响,每个位置的光谱由4 次激光产生的光谱平均而成,总共采集780 张光谱。为验证模型的泛化能力,从每类岩石样品中选取部分样品数据作为测试集不参与模型的训练,共选择18 个样品的光谱数据作为测试集,其余光谱数据用于模型的训练。
岩石中复杂的基质效应会影响LIBS 定量分析的准确性和稳定性[26],不同岩性的样品基质不同,类似基质样品的光谱具有一定的共性。为减小基质效应的影响,提升定量分析的准确性,本研究采取先对不同基质的岩性样品进行分类,再根据不同的类别分别对各元素进行定量分析的策略。整个数据处理的流程如图1 所示。数据处理的大致流程如下:获取21 个样品的LIBS 光谱数据作为训练集,对这些数据进行相应的预处理(预处理方式有MinMax归一化[27]、全谱归一化[28]、分通道归一化[29]),根据岩石含量的信息以及它们的光谱图呈现出的规律,使用两层分类模型,对6 类样品进行分类,然后基于每个类别分类之后的数据建立单变量定标模型。完成建立预分类定量分析模型之后,将18 个样品的测试集LIBS 光谱数据经过对应的预处理方法,输入到分类模型中得出分类结果,再将分类之后的数据输入到对应分类类别结果的单变量定标模型中预测样品的含量。
图1 光谱数据处理流程图Fig. 1 Flow chart of spectral data processing.
根据1.4 节中的数据划分,本研究基于训练集数据构建多层的定量分析模型,再使用测试集数据来评估模型的预测能力。整个模型的构建思路遵循先分类后定量的策略。
本研究使用k 近邻算法和支持向量机算法来构建分类模型。其中k 近邻(k-Nearest Neighbors,kNN)对测试集数据进行预测时,会在训练集数据中找到与该数据最相似的k个邻居,将k个近邻中占多数的类别认定为该数据的类别[30]。支持向量机(Support-vector machines,SVM)会构造一个最优的超平面,使得线性分类形成的几何间隔最大化,将原始数据映射至内核函数构造的高维特征空间,在高维特征空间上构造线性分类[31]。
根据样品中元素含量的差异,设计了一个双层的分类模型将LIBS 光谱按照岩性类别分成6 类:第一层采用kNN 模型将所有光谱分为A、B 两类,其中A 类包括钙含量较高的白云岩、石灰岩和石膏岩,B 类由硅含量较高的火成岩、泥页岩和砂岩所构成;第二层使用径向基函数SVM 模型将A 类细分为白云岩、石灰岩和石膏岩,将B 类细分为火成岩、泥页岩和砂岩。
本研究中,kNN 模型的关键参数k值设定为5;SVM 模型的关键参数惩罚参数(C)及径向基核函数(RBF)的宽度参数(γ)分别设定为1 和0.1。这两个模型在测试集数据上的分类准确率均为100%,整个分类模型的准确率达到100%,表明该分类模型能够有效地识别不同岩性。
针对分类后的每个类别,使用标准曲线法分别建立各元素的定量模型。考虑到LIBS 光谱中元素特征峰饱和与特征峰附近具有干扰峰等情况[32-33],分别选择Si (I)250.69nm、Ca (I)585.745nm、Mg (I)516.732nm 和K(I)766.489nm 作为定量分析线。
在进行定量分析之前,为减小光谱之间噪声和干扰带来的差异,根据不同种类的岩石分别采用不同的预处理方法,包括全谱归一化、分通道归一化和MinMax 归一化方法,分别见公式(1)、(2)和(3)。
式中:Ifn代表全谱归一化后的峰强;Ii代表第i个波长的光谱强度;ΣIi表示所有波长的光谱强度之和。
式中:Icn代表分通道归一化后的峰强;Iij代表第j通道中第i个波长的光谱强度;ΣIij表示第j通道中所有波长的光谱强度之和。
式中:Imn代表MinMax 归一化后的峰强;Imax表示整个光谱中最大光谱强度值;Imin表示整个光谱中最小光谱强度值;Ii代表第i个波长的光谱强度。
由于基质效应的影响,单一的预处理方式并不适合所有待测元素的定量分析,因此为提高定量分析的准确度和稳定性,采用不同的方法对数据进行预处理。以所构建的单变量线性回归模型的决定系数(Coefficient of Determination,R2)为评价指标[34],选取了最佳预处理方法,结果如表2 所示。
表2 六种不同岩性岩石中不同元素的预处理方式结果对比Table 2 Comparison of results of pretreatment methods for different elements in six different lithologies of rocks.
从表2 中可以得出,白云岩和火成岩中的Si 元素采用分通道归一化的数据预处理方式可以获得较高的R2,而对于石膏岩来说,无需对Si 元素进行数据预处理便可以获得较好的相关性。同样对于不同岩性中同一元素采用相同的数据预处理方式,所求得R2也大不相同,泥页岩中的Ca 元素采用全谱归一化的处理方法,R2可以达到0.962,远远大于砂岩中的0.750。综合得出,针对不同的预处理方式,Si、Ca、Mg、K 四个元素在6 类岩石样品中的R2值大部分大于0.90,有令人满意的结果。
对相同的训练集和测试集数据采用该预分类定量模型和不分类直接进行定量分析的标准曲线法进行分析。其中对21 个训练集样品中Si、Ca、Mg 和K 元素分别采用MinMax 归一化、分通道归一化、全谱归一化和无数据预处理的预处理方式,其传统标准曲线分析法R2为0.765、0.541、0.539,0.600,预分类定量方法R2为0.998、0.992、0.999、0.998,对测试集预测效果有着较好的提升。使用两种策略进行定量分析的预测值与真值的相关分析结果如图2 所示。
图2 两种方法在训练集和测试集上的定量分析结果对比Fig. 2 The quantitative analysis results of the two methods are compared on the training set and test set. (a-d) is the correlation curve without classification, and (e-h) is the pre-classification quantitative correlation curve.
关键参数的优化对于kNN 和SVM 双层分类模型的性能影响很大。对于kNN 算法,关键参数为k值,代表的是算法所参考的近邻标签值的个数,k取值较小时,模型复杂度较高,训练误差会减小,泛化能力减弱;k取值较大时,模型复杂度低,训练误差会增大,泛化能力有一定的提高。在本文中采用交叉验证的方式选取最优的k值(k=5)[35],用于岩石样品的预分类。对于SVM 算法,本文选择RBF 函数作为核函数,因为其具有良好的泛化能力,可以避免过拟合问题,提高模型的鲁棒性,同时与其他核函数相比,RBF 核函数计算速度相对较快,可以提高模型分类的效率[36],并且通过网格寻优方法确定了关键惩罚参数C 和RBF 宽度参数γ的值分别为1 和0.1。
采用不同预处理方法对4 种目标元素进行预处理分析,可以提高光谱稳定性,增加定量分析准确性。但是由于火成岩中Na 元素、砂岩中Si 元素、石膏岩中Ca 元素含量很高,在原始数据采集过程中,已经达到饱和[37],所以在使用归一化方法对元素进行处理时,始终是以含量最高的元素作为最大值进行归一化,这样就会导致目标元素的光谱强度相对减弱,从而使R2降低,表2 中砂岩Ca 元素的R2较低,便是因为这个原因。本文对6 类岩性中的4 种元素均已采用合适的预处理方法。
从图2 可以看出,无论是训练集还是测试集,以预分类定量策略所构建的多层模型对4 种元素分析结果的相关性都有显著提高,均高于0.99。Si、Ca、Mg 和K 元素在测试集上定量分析结果的相关性从0.664、 0.638、 0.461 和0.231 分别提高到0.999、0.994、0.999 和0.996。此外,从数据的分析处理中可以知道,传统定量分析模型的稳定性也比较差,Si、Ca、Mg 和K 等4 种元素在测试集上的平均相对标准偏差(RSD)分别为3.4%、10.7%、48.2%、90.8%,而通过多层模型得到的4 种元素RSD 分别为1.5%、5.2%、10.3%、17.4%,其稳定性与传统定量分析模型相比有了很大提高。这是因为多层模型中的预分类定量策略,可以减小由基质效应所造成的定量结果的偏差。同时,相对单一的预处理方式,对不同岩性中不同元素采用不同的预处理方式能够有效地减小具有类似基质的光谱波动,从而降低定量分析的相对标准偏差[38]。本研究还采用测试集中真实值和预测值偏差范围(公式(4))作为评价定量结果的指标。
采用箱线图来表示未进行预分类和进行预分类的4 种元素在测试集上偏差范围[25],如图3 所示。
图3 (a)未进行预分类和(b)进行预分类两种方法中4 种元素的偏差范围的箱线图对比Fig. 3 Comparison of box line plots of deviation ranges of four elements in two methods: (a) Box line diagram of deviation ranges for Si, Mg, K and Ca without preclassification method; (b) Box line diagram of deviation ranges of Si, Mg, K and Ca using pre-classification method.
如图3 中的中心实线代表每个数据范围的中位数,方框显示数据范围中心的50%。该图展示了采用预分类策略比未采用预分类策略,4 种元素的偏差范围都有明显地降低,尤其是对Si 和K 元素的定量效果,有着显著提升。基于这种结果,在进行定量分析之前,根据岩石样品中基质的相似性进行预分类,可以减小不同基质之间的相互影响,增加定量准确性。
同时通过对测试集上各元素预测值与目标值之间的平均相对误差来更加直观地评估两种方法的差异,结果如表3 所示。从表3 可以看出,多层模型的对Si 元素的预测效果最好,平均相对误差只有4.65%。虽然其他三个元素的平均相对误差超过10%,但是相比于传统的标准曲线模型,预测的准确度显著提升。结果表明,采用多层模型的方法,分别针对基质相似的同一类样品构建定量分析模型,并且针对不同岩性中不同元素采用不同的预处理方式,能够减小基质效应造成的光谱差异,提升定量分析的准确度和稳定性。
表3 传统标准曲线模型和多层模型两种方法在测试集上的定量分析结果的平均相对误差对比Table 3 Comparison of the mean value of relative errors of the quantitative analysis results on the test set between the two methods of traditional standard curve model and multi-layer model.
传统的标准曲线模型数据预处理方式单一,且定量的精度和稳定性较差,容易受到光谱波动和岩石中基质效应的影响。本文提出了一种先分类再定量的多层模型,采用kNN 和SVM 算法构建双层分类模型,采用交叉验证和网格寻优方法对kNN 和SVM中关键参数进行优化。通过预分类模型对岩石样品进行预分类,获得基质相互匹配的岩石样品,对于不同种类的样品采用不同的预处理方式以减小光谱数据 波动,再针对每种元素建立标准曲线模型,对6 类岩石样品中Si、Ca、Mg 和K 元素进行定量分析,得到结果与传统标准曲线模型进行对比,定量的准确度有了明显的提高。研究表明该模型不仅可以减小基质效应对定量分析产生的影响,还可以校正由于硬件、环境、样品等因素导致定量分析的不稳定性。
但是,目前的多层定量分析模型对于不同元素的预测效果还存在一定偏差,今后可以考虑采用结合多种不同算法建立预分类模型,达到更好的定量分析效果,为实际的野外岩矿分析作业提供有价值的帮助。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!