当前位置:首页 期刊杂志

萤火虫优化支持向量机参数的近红外光谱技术鉴别卷烟牌号

时间:2024-07-28

潘 曦 李 冉 魏 敏 卫 青 邱昌桂

(1. 湖北中烟工业有限责任公司技术研发中心,湖北 武汉 430040;2. 云南瑞升烟草技术〔集团〕有限公司,云南 昆明 650106)

卷烟品牌是烟草工业企业发展的核心基础和生存之本,不同品牌的卷烟主要采用调整烟叶原料的叶组配方和香精香料配方等技术达到维持卷烟品牌的内在品质质量与风格特征的目的。烟草行业中,卷烟内在品质质量和风格特征主要通过感官质量评价[1]、主流烟气[2-3]和烟丝化学成分[4-5]等方法进行判断和鉴别。近年来,近红外光谱技术(NIRS)逐渐成为区分和鉴别卷烟内在质量和风格特征的重要分析方法[6-7],该技术具有样品无需预处理、无污染、无损分析、绿色环保以及操作简便和检测速度快等优点[8],结合化学计量学方法可实现样品的定量定性快速分析,被广泛应用于食品和制药等行业[9]。王家俊等[10-13]采用近红外光谱技术实现了烟草中多种化学成分含量及物理特性的快速测定。其在烟叶模式识别方面也被广泛应用,如烟叶类型分类判别[14]、卷烟配方结构识别[15]、卷烟质量投影识别[6]、卷烟生产过程监测及质量评价[16-18]和卷烟真伪鉴别[19]等,特别是与机器学习方法结合应用,极大地提高了模式识别的准确率[20-21]。曹妙玲[22]以前16个近红外光谱主成分及12个抽提的综合特征为分类特征所建立的KNN判别模型的平均预测正确率为92.65%~96.23%。谢有超等[21]采用连续小波变换(CWT)进行近红外光谱数据预处理,概率主成分分析(PPCA)方法进行数据降维,基于Linear核函数的支持向量机(SVM)方法建立的卷烟牌号识别模型的正确识别率值达97.20%,提升了卷烟牌号的识别准确率。但SVM模型的分类准确率在很大程度上取决于SVM参数值的选取,而参数值的选取目前还主要依赖于经验值的试取。

研究拟以6种不同牌号卷烟的成品烟丝为试验对象,采用近红外光谱技术结合萤火虫算法优化的支持向量机建立预测模型,对不同牌号卷烟进行更详细的牌号区分,以期为品牌卷烟的内在质量和风格特征及不同牌号卷烟内在质量特征快速鉴别研究提供依据,为进一步利用近红外光谱技术进行卷烟产品质量维护、卷烟过程质量监测和卷烟配方设计提供技术指导。

1 材料与方法

1.1 仪器与设备

傅里叶变换近红外光谱仪:Nicolet Antaris II型,美国Thermo fisher公司;

恒温恒湿箱:KBF 540型,德国 Binder公司。

1.2 材料

以湖北中烟某厂黄鹤楼品牌卷烟制丝生产线的叶丝段加香工序后的某固定位置采集的6个不同牌号成品烟丝为样品,正常生产条件下,每次约间隔90 s取样(样品量约为200 g),每批次取样30次,置于密封袋中待用。

1.3 近红外光谱采集

光谱扫描前,近红外光谱仪器开机预热时间 >1 h,以保证仪器运行稳定。近红外光谱仪工作参数:光谱波数10 000~4 000 cm-1;分辨率8 cm-1;扫描次数64。将成品烟丝样品直接放置在仪器自带的旋转杯中,用压块自然压实,采用旋转样品杯的方式采集近红外光谱,每个成品烟丝样品采集3次,取平均值。

1.4 样本集划分

按表1对样品进行编号,每种牌号成品烟丝样品根据70%为训练集,30%为测试集的原则采用随机的方法划分训练集和测试集,即从300个成品烟丝样品中选择210个烟丝样品作为训练集,剩余的90个烟丝样品作为测试集。

表1 6种卷烟牌号样品集的划分Table 1 Sample numbers in sample sets of cut filler of 6 cigarette brands

1.5 光谱采集及预处理

由于成品烟丝是由不同等级、物理特性的片状、丝条状烟草原料混合而成,光谱采集过程中存在烟丝结构、成分和外观不均匀性以及光谱噪声所引起的散射影响,需对光谱进行预处理以减小烟丝表面特征不均匀和成品烟丝厚度的不一致性等因素影响。即采用一些数学方法减弱或消除非目标因素对烟丝光谱的影响,以利于从复杂的近红外光谱数据中提取有用的光谱信息,提高烟丝SVM分类模型方法的准确性和可靠性。为消除背景和环境噪声、其他信息以及丝条状、片状烟丝特征不均匀等因素的影响,采用的光谱预处理方法包括:多元散射校正(MSC)、标准正态变量变换(SNV)、Savitzky-Golay滤波器(SG)、一阶微分(1D)、二阶微分(2D)及组合方法。

1.6 建模方法

1.6.1 SVM算法的基本原理 支持向量机(SVM)是由Vapnik团队提出的基于统计学习理论的新颖的机器学习方法[23-24],其进行分类的基本思想是通过一个非线性映射函数将原始数据映射到高维特征空间中,在高维特征空间进行内积运算构造一个最优分类超平面作为决策面,不但使分类间隔距离最大,而且能实现分类中的两类样本正确分开。其中构造最优分类超平面转化为数据模型即求函数的全局最优解:

(1)

对于训练集,为实现正确分类,需满足如下条件:

yi(ω·xi+b)-1≥0,i=1,2,…,m,

(2)

式中:

m——训练集个数;

xi——训练集原始数据;

yi——训练集的类别;

ω——分类超平面的系数向量;

b——阈值。

核函数能显著影响支持向量机的分类性能,但对于如何选择、确定核函数尚无成熟理论。常用的核函数主要有线性核函数(Linear)、多项式核函数(Poly)、多层感知器核函数(Sigmoid)和Gauss径向基核函数(RBF)等[25]。文中选取应用最广泛的具有良好的学习能力、能够逼近任何非线性函数的径向基核函数(RBF)进行分类研究,其形式为:

K(x·xi)=exp(-g‖x-xi‖2),g>0,

(3)

式中:

g——核函数参数(核宽度)。

影响支持向量的分类模型的精度和泛化能力的参数主要为核函数参数g和惩罚因子参数c。其中,核函数参数g控制函数的回归误差,直接影响初始的特征向量和特征值,惩罚参数c对支持向量的分类模型的精度和泛化能力影响显著。通常,对支持向量机两个参数的选择多以经验选取为主,其分类精度和速度均无法得到保证,为了提高SVM的学习和泛化能力,采用萤火虫算法优化SVM分类器的两个参数g和c,以寻求SVM两个参数的最优值。

1.6.2 萤火虫算法的基本原理 萤火虫算法(FA)是Yang[26]在2008年受萤火虫自身趋光性特点启发而提出的一种新颖的仿生智能优化算法,通过模拟萤火虫之间因发光吸引而移动的行为规则实现萤火虫位置的迭代更新,从而达到寻优的目的。萤火虫算法中,萤火虫彼此吸引是由萤火虫自身亮度和吸引度两个因素所决定,亮度低的萤火虫被亮度高的萤火虫吸引而向其移动,从而更新自身位置[27]。亮度与吸引度是萤火虫空间距离有关的两个因素,随着萤火虫空间距离的增加,萤火虫的亮度与吸引度均减小。萤火虫的相对萤光亮度为:

(4)

(5)

式中:

L0——萤火虫最大萤光亮度;

γ∈[0.1,2.0]——萤光强度的吸收系数;

rij——两个萤火虫i与j之间的空间距离。

萤火虫之间的吸引度βij定义为:

(6)

式中:

β0——萤火虫的最大吸引度,通常取[0.8,1.0]。

低亮度的萤火虫i向高亮度的萤火虫j移动的位置更新表示为:

(7)

式中:

α——步长因子;

t——迭代次数;

rand——介于[0,1]的随机数;

β——相对吸引度。

根据式(7)计算萤火虫更新后的位置,然后根据式(4)~式(7)重新计算更新后的萤火虫亮度和位置,萤火虫通过多次向高亮度的萤火虫方向移动后,所有萤火虫个体都将聚集在亮度最高的萤火虫位置上,从而实现寻优。

1.6.3 萤火虫算法优化支持向量机参数流程 SVM的核函数选用RBF核函数,采用萤火虫算法优化SVM的核函数参数g和惩罚因子参数c,即运用FA算法的搜索能力寻找萤火虫亮度最大的位置X(c,g),从而得到参数的最优解(c*,g*)。基于FA-SVM的卷烟牌号分类识别的具体流程如图1所示。

图1 基于FA-SVM的卷烟牌号分类识别流程图Figure 1 Flowchart of types of cigarette classify discrimination based on FA-SVM

以烟丝样品训练集和测试集的分类正确率(正确分类的样品数占总样品数的百分比)作为SVM模型分类效果和SVM参数优化的评价指标。训练集和测试集的正确率越接近于100%,SVM分类模型的精度越高,说明SVM参数和分类模型的效果越好。

2 结果与讨论

2.1 烟丝样品的原始近红外光谱

由图2可知,6种牌号成品烟丝的近红外光谱由于含有样品的信息和其他信息及噪声,近红外光谱曲线的吸收峰位置和峰形均较为相似,不能直观地通过近红外光谱曲线鉴别不同牌号的成品烟丝,需经预处理后,再对牌号成品烟丝进行鉴别。

图2 成品烟丝的近红外原始光谱Figure 2 Raw NIR spectra of finished cut tobacco samples

2.2 确定最佳的预处理方法

采用SNV和SNV+1D光谱预处理方法变换后的光谱图如图3所示。由图3可知,经SNV预处理后消除了不同形状(烟丝片状、丝条状)样品产生的散射影响,增强了光谱有效信息。SNV消除样品散射影响后,经1D预处理后的光谱图像能够有效减小光谱的噪声以及消除光谱的基线漂移。因此,经SNV+1D预处理后的近红外光谱能够有效减小噪声,便于牌号成品烟丝的分类。

图3 SNV和SNV+1D预处理后的近红外光谱Figure 3 The NIR spectral data after SNV and SNV+1D preprocessing

使用FA优化SVM分类算法分别对6种牌号成品烟丝样品进行分类,固定萤火虫数目为20,迭代次数为20,使用5折交叉验证,重复测试10次,对比5种光谱数据预处理方法的平均预测准确率,结果见表2。由表2可知,采用SNV+1D预处理方法的成品卷烟训练集和测试集的分类准确率最高,训练集和测试集的平均分类正确率分别为100.00%,98.33%,分类效果最差的是MSC预处理方法。因此,选择SNV+1D作为成品卷烟鉴别模型的光谱数据预处理方法,可能与SNV+1D能更好地消除光谱数据中的背景干扰和基线漂移有关。

表2 不同光谱数据预处理方法下FA-SVM鉴别模型统计表Table 2 The result of different recognition models under different spectral data pre-processing methods(n=10)

2.3 FA参数优化

为了考察萤火虫性能随种群数目和迭代次数的变化情况,分别选取萤火虫数量为10,20,30,迭代次数分别为10,20,40来表示萤火虫的寻优趋势,使用5折交叉验证,重复测试10次,并以平均分类准确率为预测指标评价FA优化SVM的分类鉴别性能,结果见表3。由表3可知,在试验范围内,萤火虫的数目和迭代次数对训练集的分类识别正确率均为100.00%,并且对测试集的分类正确率也达到了96.00%以上,说明采用萤火虫算法优化支持向量机能够较好地分类鉴别卷烟同品牌不同牌号。其中,分类准确率最高是萤火虫数目为20,迭代次数为20的组合,卷烟测试集的平均分类识别正确率为98.33%。分类效果最差的是萤火虫数目为10、迭代次数为20的组合,测试集的平均分类正确率为96.00%。

表3 不同种群数量和迭代次数的分类准确率Table 3 Classification accuracy of different population numbers and iteration times

2.4 基于萤火虫算法和支持向量机建立的卷烟鉴别模型

选择最优的预处理、萤火虫数目和迭代次数,即萤火虫的种群数量为20,迭代次数为20,光谱数据的预处理方法为SNV+1D,支持向量机惩罚参数c值为[0.01,100.00],核函数参数g值为[0.01,100.00],采用FA-SVM算法对6种牌号300个成品烟丝样品进行分类,使用5折交叉验证,重复测试10次。图4为第一次对训练集的成品烟丝样品数据使用5折交叉验证的萤火虫算法优化支持向量机参数c、g的适应度曲线。图5为成品烟丝样品训练集和测试集的分类效果图。

由表4和图4、图5可知,优化过程中,萤火虫种群中的最优个体适应度随迭代次数的增加逐渐增加,当迭代次数为4时开始趋于稳定,并稳定于97.14%,表明此时的支持向量机的两个参数(惩罚参数与核函数参数)的组合达到性能最优,即支持向量机的最佳惩罚参数c=85.75,最佳核函数参数g=92.35,训练集和测试集的分类正确率均为100.00%。此外,重复测试10次,FA-SVM算法的训练集分类正确识别率均为100.00%,测试集的分类正确识别率为96.67%~100.00%,说明近红外光谱技术结合FA-SVM分类模型能准确地鉴别卷烟牌号。

图4 FA-SVM算法参数优化的适应度曲线Figure 4 FA-SVM algorithm fitness optimization process curve

图5 训练集和测试集的分类效果图Figure 5 Classification effect diagram of training set and test set

表4 FA-SVM算法对不同成品烟丝的分类结果Table 4 Classification results of cigarette in finished cut tobacco samples of different brand with FA-SVM algorithm

3 结论

以湖北中烟黄鹤楼品牌的6个牌号为研究对象,提出了一种基于近红外光谱数据结合萤火虫算法优化支持向量机鉴别卷烟牌号的方法。结果表明:采用标准正态变量变换结合一阶导数对近红外光谱进行预处理,当萤火虫种群数目为20,迭代次数为20时,成品烟丝训练集正确识别率均为100%,测试集的正确识别率为96.67%~100.00%。因此,萤火虫算法优化支持向量机算法结合近红外光谱技术可实现对卷烟牌号的准确鉴别。但该方法仅对近红外全光谱进行研究,后续将结合近红外光谱不同波长的筛选方法,以期进一步提升卷烟牌号的鉴别能力。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!