当前位置:首页 期刊杂志

基于分类特征提取和深度学习的牛肉品质识别

时间:2024-07-28

王新龙 李 翔

(1. 长治学院,山西 长治 046011;2. 陕西科技大学,陕西 西安 710021)

受屠宰方式、储存手段等因素影响,牛肉品质可以划分为正常肉、白肌肉、黑干肉和掺假肉等类型[1-5],人工感官识别是目前常见的识别手段,其主观性强、劳动强度大、结果可信度低[6]。随着近红外光谱技术的快速发展,光谱技术应用于品质识别与鉴定已成为热点研究领域之一。由于光谱中包含了大量被测物品信息,如何高效地对光谱特征进行提取筛选以实现高精度识别是当前亟需解决的难题。张保霞[7]利用主成分分析法对猪肉光谱进行降维处理,提取出猪肉光谱特征,并采用支持向量机进行品质辨识,该方法识别精度可以达到92.31%以上,但是,该方法提取的特征能否保持原始数据分类能力有待进一步研究。吴叶兰等[8]采用主成分分析法对高光谱成像特征进行筛选,并利用随机森林模型进行识别,有效分辨出了柑橘病虫害叶,但是主成分分析法对噪声鲁棒性不强,误差较大。孔德明等[9]面对海量光谱数据,采用稀疏主成分分析法进行特征提取,得到的分类准确率比主成分分析法提高了5%,但是该方法采用网格搜索法配置支持向量机模型参数,容易陷入局部最优,影响了识别精度。

牛肉品质识别过程需要进行大量数据样本训练,而以往研究往往忽略了数据差异性对识别精度的影响,尤其是当训练样本存在较多异常点时,得到的识别结果是不可靠的。为了降低数据差异性以及光谱特征冗余度对牛肉品质识别的影响,研究拟采用DPeak[10]对牛肉光谱进行分类,使得同类内数据有更多的相似性,不同类数据具有更多的差异性;设计分类光谱特征提取机制,尽可能降低数据维度,并最大限度保持原始数据辨识能力;运用狮群算法[11-12]对分类支持向量机(SVM)模型参数进行优化,得到最优模型参数配置;并建立融合分类特征提取和SVM的牛肉品质识别模型,以提高牛肉品质分类识别精度。

1 材料与方法

1.1 材料与设备

正常肉、白肌肉、黑干肉试验样本:取生鲜牛肉股二头肌、左右侧背最长肌,每块样品去除结缔组织,切割厚度30 mm,并取每块样品的局部进行化学分析以确定所属品质,市售;

掺假牛肉样本:指定合成牛肉生产商,按5%,10%,15%,20%,25%比例在牛肉中掺加鸭肉,并于-30 ℃冷冻,冷藏解冻24 h后制成掺假牛肉样品。

1.2 试验方法

所有样品统一标签备注,按正常肉∶白肌肉∶黑干肉∶掺假肉为1∶1∶1∶1的比例选取300个样本组成训练样本集,随机选取4类牛肉80个组成测试集。结合化学分析的pH值、乳酸含量、肌糖原、掺假比例等指标[13],建立牛肉品质指数与品质类别对应表,并采用专家判定法[14]按表1对每个训练样本、测试样本品质指数进行赋值。

表1 牛肉品质指标与品质类别对应表Table 1 Corresponding table of beef quality index and quality category

利用近红外光谱仪采集样本全波段(FS)数据,得到训练样本FS数据集合和测试样本FS数据集合。对于训练样本FS数据集合,设计改进的DPeak算法(IDPeak)进行聚类分析,得到多个FS分类;定义分类牛肉光谱特征提取目标函数,采用改进LSO(ILSO)进行求解,提取到每个分类最佳光谱特征子集;利用改进ILSO对分类SVM参数进行优化,建立融合分类特征提取和SVM的牛肉品质识别模型。对于测试样本FS数据集合,找到每个待测试样本光谱数据对应的分类,利用该分类识别模型提取特征参数,并进行牛肉品质识别,最终得到识别结果,牛肉品质识别方法示意图见图1。

图1 牛肉品质识别方法示意图Figure 1 Schematic diagram of beef quality identification method

2 牛肉品质识别

2.1 改进狮群算法

狮群算法(LSO)设置狮王、母狮、幼狮3种类型个体,分别执行不同的更新进化策略,其算法核心在于平衡局部搜索与全局搜索,具有较好的收敛能力[15-16]。LSO缺陷主要有:幼狮等概率选取狮王、母狮、反向学习进行进化,导致算法初期不利于大范围搜索,算法后期影响了收敛速度;公狮、母狮只选择向自身历史最优解和当前公狮、母狮群体最优解进行学习,容易陷入局部最优;个体进化控制系数随机选取,不利于保持种群多样性。为此提出ILSO,自适应调整幼狮不同学习进化的个体规模,增加狮王、母狮学习对象种类,设计改进的进化控制系数,并以概率的形式接受不好的解。

2.1.1 自适应学习 以最小值优化问题为例(目标优化函数为f),LSO种群规模为Q、最大迭代次数Tmax、幼狮个体数量为Nc。t时刻,种群最优解、最差解为Xb(t)、Xw(t),采取向狮王、母狮和反向进化学习的幼狮个体数量分别为Nc,1、Nc,2、Nc,3。

(1)

(2)

Nc,2=Nc-Nc,1-Nc,2,

(3)

式中:

γ1、γ2——个体数量控制系数;

ε——极小常数。

由式(1)~式(3)可知,算法初期,幼狮更多的个体向具有更优目标函数值的狮王位置进行移动,加速了算法收敛速度;随着迭代次数的增加,种群整体趋向全局最优解,此时,幼狮更多的个体执行反向进化操作,提高了算法跳出局部极值的概率和收敛精度。

2.1.2 学习对象扩展与进化控制t时刻,对于XL,i(t)、母狮XM,j(t),引入种群其他个体信息以扩展搜索空间:

XL,i(t)=ωXb(t)+rand(-1,1)[pL,i-XL,i(t)]+rand(-1,1)[XL,i(t)-XL,a(t)],

(4)

XM,j(t)=ωXb(t)+rand(-1,1)[XM,j(t)-XM,b(t)]+rand(-1,1)[XM,j(t)-XM,c(t)],

(5)

(6)

式中:

ω(ωmin、ωmax)——进化控制系数(边界);

pL,i-XL,i(t)——历史最优解;

XL,a(t)[XM,b(t)、XM,c(t)]——公狮(母狮)其他个体;

f、favg——LSO当前个体目标函数值、种群目标函数平均值。

由式(4)~式(6)可知,狮王(母狮)迭代进化中引入种群最优解和其他公狮(母狮)个体信息,并根据自身目标函数值动态调整向种群最优解学习进化程度,有效扩展了种群搜索空间,提高了算法收敛精度。

2.1.3 概率进化 当狮群内个体Xi(t)执行完设定的更新策略后得到新的个体Xi,new(t),若Xi,new(t)目标函数值优于Xi(t),则用Xi,new(t)替代Xi(t);否则,以概率p接受Xi,new(t):

(7)

式中:

α——比例系数。

根据马尔科夫链理论[17],采用概率的形式接受不好的解,使得ILSO算法能够以概率1收敛于全局最优解。从ILSO算法实现可知,对于D维优化问题,算法种群初始化复杂度O(Q),算法迭代一次复杂度为O(QlgD),总计算复杂度为TmaxO(QlgD)+O(Q)≈TmaxO(QlgD)。

2.2 IDPeak聚类分析

增加训练样本规模能改善模型训练效果,有利于提高识别精度,但是,训练样本规模增加的同时,也带入了大量噪声、孤立点等信息,若不妥善处理数据样本差异性,得到的识别结果往往是不可靠的。为此,引入改进DPeak算法(IDPeak)对训练样本进行聚类分析,降低数据差异性对识别精度的影响。DPeak算法作为一种粒度计算模型,具有参数简单、鲁棒性强等特点,对于大部分数据类型都有着很好的适应性[18]。对于牛肉光谱训练样本数据集合Θ={Si}i=1,…,N,每个样本Xi由n个波段组成Si=(si1,…,sin),设Si到Sj的欧式距离为dij,DPeak定义局部密度ρi、最近点距离δi、分类判定参数γi:

(8)

式中:

dc——截断距离(DPeak算法唯一设定参数),m。

DPeak基于ρi、δi、γi建立决策图,将数据点划分为离群点、密度峰值点和正常点,并选取决策图右上方的点为聚类(分类)中心。对于多孤立点复杂聚类问题,DPeak聚类效果不佳,且dc的取值大小直接影响了ρi、δi、γi,为此,设计改进DPeak(IDPeak)算法,采用核距离Dij对Si到Sj的距离进行描述,并利用ILSO求解最佳截断距离:

Dij=‖Φ(Sj)-Φ(Si)‖2,

(9)

式中:

Φ(·)——核函数(文中选取高斯函数)。

参照文献[19]提出的邦费罗尼指数,定义聚类效果评价指标(CEEI):

(10)

式中:

CEEI——聚类效果评价指标。

CEEI取值越小,聚类效果越优[19]。CEEI涉及σ、dc两个参数,采用ILSO对CEEI优化,将个体编码Xi等效为Xi=(σi,dc,i),目标函数为f(X)=minCEEI。通过ILSO迭代进化,最终得到最佳截断距离dc,max。图2为IDPeak对4个典型数据集的聚类结果,其与FCM、DPeak聚类正确率对比见表2。由图2和表2可知,IDPeak聚类结果更优。

表2 评价指标对比结果Table 2 Comparison results of evaluation indexes %

图2 IDPeak典型数据集聚类结果Figure 2 Clustering results of typical IDPeak data sets

2.3 分类特征提取

(11)

(12)

(13)

式中:

Η——类间相似度矩阵且为常数矩阵;

U——相关性矩阵。

分类特征提取的目的是通过确定V表达形式,使得提取到的特征波段尽可能保持原始数据的分类能力,为此,利用IDPeak对CL,i进行聚类分析,以验证提取后波段特征的分类能力。式(13)中Η反映了IDPeak分类后的类间相似程度,U反映了Sij与类的相关性,可以采用最大信息系数法[20]求解。

当TZT取最小值时对应的V即为最佳特征波段提取向量Vbest,为此,采用ILSO对TZT最小值问题进行优化,将个体编码Xi等效为Xi=V,目标函数为f(X)=minTZT。由于TZT最小值问题属于离散问题,对ILSO对应的式(4)、式(5)进化方式进行离散化理解,即ωXb(t)理解为随机选取Xb(t)内ω个编码位进行替代操作,rand(-1,1)[XM,j(t)-XM,b(t)]理解为随机选取[rand(-1,1)×m]个编码位进行替代操作[m为XM,j(t)、XM,b(t)不同编码位的个数]。

2.4 分类识别模型

(14)

式中:

y——模型输出;

K(·)——核函数,参数为θ;

λ——惩罚参数;

b——超平面偏差。

(15)

式中:

W——训练次数;

ILSO循环迭代进化,最终得到分类CL,i的SVM模型最佳参数组合(λ,θ)best,i。对于测试样本FS数据集合Θs={Zi},牛肉品质识别实现过程为:根据Zi与Θ={Si}i=1,…,N每个分类中心的距离判定其所属分类,采用1stDer等方法数据预处理后,利用该分类对应的最佳特征波段提取向量特征波段,将其作为分类SVM模型输入,通过SVM模型识别预测,最终完成Zi牛肉品质识别。

3 结果与分析

采用Thermo公司生产的AntarisⅡ型近红外光谱仪进行全波段扫描,光谱采集软件为Avasoft7.4版本,数据处理软件为MATLAB2017a,图3为试验方法示意图。

图3 试验方法示意图Figure 3 Schematic diagram of test method

3.1 分类特征提取

由表3可知,IDPeak算法将训练数据集划分为7个分类,对于每个分类,无论是直接进行特征提取,还是先经过1stDer预处理再进行特征提取,每个分类提取到的特征波段是不同的,表明不同类数据具有较大的差异性,且数据经过预处理后,特征波段也发生了变化,这种差异性和特征变化会影响最后识别精度。由图4可知,相比于LSO、PSO算法,ILSO收敛速度更快,收敛精度更高。由表4可知,不同分类中同时包含了多种品质类型的牛肉样本,例如,对于“分类7”,同时包含了正常肉、黑干肉和掺假肉3种牛肉品质类型,表明不同牛肉品质的样本在光谱特性上有相似性,进一步验证了采用分类进行牛肉品质识别的重要性。

表3 分类结果与分类特征波段提取结果Table 3 Classification results and classification feature band extraction results

表4 每个分类样本对应牛肉品质类型及个数Table 4 Number of samples and beef quality type of each classification

图4 ILSO优化CEEI、TZT收敛曲线Figure 4 ILSO optimization and convergence curve

3.2 牛肉品质识别和对比试验

利用测试样本数据集合验证文中所提融合分类特征提取和ILSO优化SVM识别模型(IDPeak-ILSO-SVM)精度,表5给出了识别精度结果。

设置对比试验场景1:不对训练样本进行聚类,采用主成分分析法(PCA)和文中提出的最佳特征提取方法(CEEI)对训练样本进行特征提取,采用文中提出的ILSO优化SVM模型(ILSO-SVM)进行识别,表6给出了识别精度对比结果。

设置试验场景2:利用DPeak、IDPeak对训练样本进行聚类,采用CEEI提取特征波段,并运用RF、ILSO-SVM进行识别,表6给出了识别精度对比结果。

由表5~表7可知,不同数据预处理方法对识别精度影响不同,相比于多元散射校正(MSC)、标准正态变换(SNV)预处理方法以及原始数据,经1stDer预处理后的识别精度更高,而MSC表现最差。未进行聚类分析时,经1stDer预处理后,ILSO-SVM对4种牛肉品质的识别精度分别为92.4%,91.7%,92.8%,91.1%;采用DPeak算法进行聚类分析时,ILSO-SVM的识别精度分别为93.1%,92.8%,93.4%,93.5%;采用IDPeak算法进行聚类分析时,ILSO-SVM的识别精度分别为99.6%,99.1%,99.9%,99.5%,表明利用IDPeak算法进行聚类分析,降低了数据差异性对识别精度的影响。

表5 IDPeak-ILSO-SVM模型识别精度Table 5 IDPeak-ILSO-SVM recognition accuracy %

由表6可知(以1stDer预处理数据为例),未提取特征波段,ILSO-SVM的识别精度分别为82.6%,81.5%,79.6%,80.5%;采用PCA提取特征波段时,ILSO-SVM的识别精度分别为88.4%,89.3%,86.2%,87.5%;采用CEEI进行特征提取时,ILSO-SVM的识别精度分别为92.4%,91.7%,92.8%,91.1%(未进行聚类分析的情况下),表明利用CEEI提取到的特征波段的识别能力优于PCA算法,识别精度更高。由表7可知,采用IDPeak算法聚类分析、CEEI分类特征提取,RF的识别精度分别为94.2%,93.6%,92.7%,94.6%,低于ILSO-SVM识别精度,表明采用ILSO对SVM进行参数配置,提高了模型的识别精度。

表6 试验场景1下ILSO-SVM模型识别精度对比Table 6 Comparison of recognition accuracy under comparative test scenario 1 %

表7 试验场景2下模型算法识别精度对比Table 7 Comparison of recognition accuracy under comparative test scenario 2 %

为进一步验证所提IDPeak-ILSO-SVM性能,与SSA-SVM[7]、1stDer-PCA-SVM[8]进行对比,每种方法独立运行30次,选取识别精度均值、均方根误差均值为评价指标,对比结果见表8。由表8可知,相比于其他2种识别模型,IDPeak-ILSO-SVM的识别精度均值、均方根误差均值更优,识别精度提高了约5.02%~8.30%,更适用于牛肉品质识别。

表8 不同识别方法评价指标对比Table 8 Comparison of evaluation indexes of different identification methods

4 结论

对正常肉、白肌肉、黑干肉、掺假肉4种牛肉品质类型识别问题进行研究,提出了基于分类特征提取和深度学习的牛肉品质识别方法。结果表明,通过设计改进DPeak算法、最佳分类特征波段提取策略和ILSO优化SVM模型,降低了数据差异性以及特征冗余度对识别精度的影响,识别精度更高。下一步,将围绕提高在线牛肉品质识别精度问题进行研究。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!