当前位置:首页 期刊杂志

面向大米分类的高光谱特征波长提取方法

时间:2024-05-21

赵 刘, 齐海军, 金 秀, 温淑娴, 李绍稳

(安徽农业大学信息与计算机学院,安徽合肥 230036

大米是我国主要粮食之一,含有许多营养物质,如蛋白质、直链淀粉等,具有健脾养胃、益精强体的功能。针对大米进行质量检测和品种识别已成为研究的热点。国内外学者已经对大米的品质、属性包括外观(大小、形状、色彩、白垩和无缺陷和衰变)和内部质量方面(水分、糖、蛋白质[1-3]、直链淀粉含量[4-7]内容)等均做过有价值的研究,有关大米品种分类方面的研究则较少。虽然大米可以根据其颜色、生产地和硬度等检查分类,但是这种视觉检查方法有不少不足。如一些大米看起来相似,它们的质量属性会有很大的波动,这将影响到最终产品的质量。通过化学计量分析分辨大米品种,尽管能较精确地检测出大米内部成分的差异从而有效区分出不同的大米,可是使用这些方法时会浪费很多时间、消耗大量人力物力,不便于应用[8]。

高光谱成像技术是一种图谱合一的新技术,能同时检测到物质的内部信息和外部信息。光谱信息的提取分析方式有2种:一是对采集到的所有波段进行分析;二是通过分析样本和光谱信息的关系,提取与其相关的波长,这种方法称为提取特征波长,是指从原有的光谱数据中提取与样品化学物质相关的波长与波段[9-11]。基于全波段光谱通常可以得到样品在测量波段范围内的每一个波长的光谱信息,会产生大量数据以供分析。这些光谱数据中存在数据共线问题和大量的冗余无效的信息,使模型复杂化,建模工作量也增大,而且会导致建模效果差。如果可以选择全波段中与待预测的物质属性有关的有效波段,不但会减少信息的共线性和数据冗余,减少输入数据变量个数,再建立有效模型可以提高模型的准确度,而且也减少了数据的运算的时间和模型的复杂度,减少模型计算量,简化模型[12]。特征波长的提取有许多算法,使用这些算法可以提取有用的波段,但每一种算法所提取的波段是不同的[13]。为了建立较准确的模型,笔者采用自适应竞争性重加权法(competitive adaptive reweighted sampling,CARS)[14]、连续投影法(successive projection algorithm,SPA)[15]、无变量信息消除法(uninformative variable elimination,UVE)[16]、随机蛙跳(shufffed frog leaping algorithm,SFLA)[17]等多种特征波长提取算法提取大米的光谱数据。

1 材料与方法

1.1 试验材料

试验采用肥西大米、泰国香米、五常大米、圆糯米、杂交米、长糯米共6种类型大米,购自当地零售商,每种大米选取27粒,总共162个样本。

1.2 试验仪器

高光谱图像采集系统见图1,由2个50 W卤素灯、高光谱相机、精密云台和计算机等部件组成。其中高光谱相机为推扫式高光谱(HyperScan VNIR Micro),测量光谱范围是 400~1 000 nm,光谱分辨率为1.8 nm。高光谱数据分析软件采用ENVI(ITT,USA)和Matlab(The Math Works,Natick,USA)。

1.3 高光谱图像采集

根据系统本身所能采集图像的大小,以及方便在图像中提取大米的信息,最终确定每种大米采集3张图像,每张图像采集9个样本,6种大米共采集了18张图像。采集图像时将大米以九宫格布局摆放,其距离为1 cm,扫描角度为-10°~10°,扫描速度为1.844°/s,镜头焦距为60 nm,相机暴光时间为10 ms。为减少试验过程中外界自然光及采集系统本身对图像的影响,用黑白板校正原始高光谱图像。扫描标准白板所得到的图像,然后关闭光源和镜头盖,采集到的图像作为全黑图像,利用白板图像和全黑图像对原图像进行校正,校正公式为

(1)

式中:R为校正后的图像;I为原始图像;W为白板图像;B为全黑图像[18]。

1.4 特征波长选取

竞争性自适应重加权算法(CARS)是一种较新的变量选择理论,该方法在对无信息变量进行有效去除的同时,还可以尽可能减少共线性变量对模型的影响[19]。本研究将该方法应用于大米高光谱数据的变量选择中,通过变量选择建立针对大米种类鉴别预测模型。CARS算法流程见图2。

连续投影算法(SPA)可以从大量的光谱信息中充分剔除带有冗余信息的变量组,将剩余的光谱信息代替原始的光谱数据,从而降低数据的维度,同时减少了数据变量的个数,因此可以建立快速高效的模型,已被广泛应用于光谱分析领域[20-22]。SPA的流程见图3。

无变量信息消除法(UVE)是建立在对PLS回归系数分析上的算法,用来消除无用的变量。基本思想是生成一个与自变量矩阵相同大小的随机矩阵,并和自变量矩阵合并,利用交叉验证法建立偏最小二乘法模型[23]。获得回归系数b,求回归系数b的平均值和标准差,得到二者的商C,C的绝对值大小决定所选取的特征波长个数。公式如下:

(2)

随机蛙跳(SFLA)是近几年来新兴的一种特征波长选取算法。用少量的信息变量代替众多的变量建立回归或分类模型,是一种有效降低数据维度的方法。SFLA计算出每个变量被选择的概率,从而进行变量的选择。

1.5 数据建模方法

支持向量机(support vector machine,SVM)是一种建立在统计学习理论基础上的新型学习机器,预测的可靠性高且泛化能力强。用SVM拟合函数的主要思路是把训练集数据从输入空间非线性地映射到一个多维度的特征空间,然后在多维度的特征空间中通过最小化某种损失函数可获得一个线性的拟合函数[24-27]。

2 结果与分析

2.1 大米的原始光谱曲线

在18张样本的高光谱图像上选取每1粒大米作为1个ROI(感兴趣区域),统计每个ROI得到162条光谱曲线(图4)。通过ENVI软件导出光谱数据至Matlab,对获得的400~1 000 nm波长范围内的162×339个光谱数据进行后续分析。

从图4可以看出,在400~500、950~1 000 nm波长范围内的光谱有外界干扰噪声,因此切去这些有明显噪声的波长部分,采用剩下330个波段的光谱进行分析[28]。按照支持向量机算法(SVM)将样本分成约3 ∶1的训练集和预测集,其中训练集126个样本,预测集36个样本。用1、2、3、4、5、6分别代表肥西大米、泰国香米、五常大米、圆糯米、杂交米、长糯米6种大米的标签,不同类型的大米建模集和预测集样本数分别为21、6。

2.2 基于特征波长光谱的分类识别结果

CARS是利用蒙特卡洛采样过程采样的,具有随机性。经过100次运行得到其中最优的试验结果,当采样次数为57次时,RMSECV值最小为1.27,此时选中的特征波长个数为16个。采用SPA用于特征波长的提取,最小波长点个数设置为15,并以最小RMSECV值下的波长个数为特征波长数,获得13个特征波长。经过UVE算法分析,最终选择15个特征波长。根据SFLA算法选择不同的变量时具有不同的选择可能性,对大米全波段分析,本研究设定选择概率的阈值为0.8,共选择20个特征波长(表1)。

从表1可以看出,在不同选择算法下得到了不同的特征波长,可以清楚地看到不仅特征波长个数不同,而且选择的特征波长的差距也比较大。选择特征波长使原有的300个波段变量减少到十几个,大大减少了建模的速度,同时模型的预测能力也得到了增强。选择的特征波长不同与选择方法不同是息息相关的[29]。

表1 不同算法选择的特征波长

将CARS、SPA、UVE、SFLA分析所得到的波段作为输入变量分别建立SVM模型。在本次试验中,用径向基(radial basis function,RBF)核函数作为SVM的核函数,模型中的惩罚参数C和RBF核函数中的参数G通过利用留一交叉验证(CV)法来最终确定。

从表2可以看出,通过CARS算法所选取的特征波长建立SVM模型,预测集有36个样本,其中正确分出30个样本,有6个样本分类错误。CARS算法对大米种类分类正确率达83.33%,当惩罚参数C和核函数参数G分别为16和0.062 5时,大米分类准确率能够达到最高。通过SPA算法所选取的特征波长建立SVM模型,预测集有36个样本,其中正确分出27个样本,有9个样本分类错误。SPA算法对大米种类分类正确率达75.00%,当惩罚参数C和核函数参数G分别为16和0.062 5时,大米分类准确率能够达到最高。通过UVE算法所选取的特征波长建立SVM模型,预测集有36个样本,其中正确分出28个样本,有8个样本分类错误。UVE算法对大米种类分类正确率达77.78%,当惩罚参数C和核函数参数G分别为16和0.062 5时,大米分类准确率能够达到最高。通过SFLA算法所选取的特征波长建立SVM模型,预测集有36个样本,其中正确分出19个样本,有17个样本分类错误。SFLA算法对大米种类分类正确率达52.78%,当惩罚参数C和核函数参数G分别为16和0.062 5时,大米分类准确率能够达到最高。结果表明,通过CARS算法选取特征波长所建立的大米品种鉴别模型是可行的。

表2 基于特征波长的SVM模型的预测结果

2.3 基于全波段光谱的分类识别结果

将获得的原始高光谱数据采用SVM算法建立大米分类模型。采用交叉验证法优化SVM建模的RBF核函数的2个重要参数,最终SVM模型的分类结果见图5。从图5可以看出,预测集有36个样本,其中正确分出28个样本,有8个样本分类错误。通过基于全波段的SVM算法对大米种类分类正确率达到77.78%,当惩罚参数C和核函数参数G分别为16和0.0625时,大米分类准确率能够达到最高。结果表明,基于全波段的SVM分类算法可以把不同品种的大米有效区分开来。

3 结论

笔者利用高光谱技术对大米品种识别进行了方法研究,分析得到高光谱数据并建立SVM模型,分别采用CARS、SPA、UVE、SLFA提取特征波长,基于全波段光谱、特征波长建立PLS模型。在全波段下SVM的识别率达到77.78%;基于CARS特征波长下的SVM模型的识别率为83.33%;基于SPA特征波长下的SVM模型的识别率为75.00%;基于UVE特征波长下的SVM模型的识别率为77.78%;在SLFA选取的特征波长下所建立的SVM模型的识别率为52.78%。研究结果表明,基于高光谱技术在CARS下建立SVM模型对大米品种分类是有效可行的,利用CARS选取特征波长可以有效替代全波段信息进行大米品种分类。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!