枣果实品质鉴定因子数据的预处理研究

时间：2024-05-23

李孜洋++申连英++王晓玲++孙晨霞

摘要：因子数据预处理是为枣果实品质鉴定提供高质量数据的关键。对枣果实因子数据预处理研究，是将枣果实的颜色、形状、口感、树形、是否丰产等文本信息通过去噪音、处理空白数据、然后运用专家赋值规则库进行Java编程进行自动数字化，再利用归一化公式进行数据转化，从而判定影响枣果实品质优劣的关键因子，为枣农和消费者及时了解枣果实品质提供了简单的理论参考。

关键词：枣果实品质鉴定；因子数据；专家赋值规则库；数据预处理；关键因子

中图分类号：S665.1 文献标识码：A 文章编号：0439-8114（2016）22-5945-04

DOI：10.14088/j.cnki.issn0439-8114.2016.22.054

Research of Data Preprocessing in Identifying the Factor Data of Jujube Fruit Quality

LI Zi-yang， SHEN Lian-ying， WANG Xiao-ling， SUN Chen-xia

（Graduate School of Computer Application Technology，Agricultural University of Hebei，Baoding 071001，Hebei，China）

Abstract： Data preprocessing of factor data is a factor to provide high quality data for the identification of Jujube fruit quality. Research of data preprocessing in Jujube fruit factor， is changing the text information of jujube fruit color， fruit shape， fruit flavor， the tree form， and fertility into digital information by dealing with noise data， blank data. And using expert assignment rule base writes Java programming to automatic digitization， and then uses the normalization formula for data transformation. So that it determines the key factors of the Jujube fruit quality. It provides a simple theory reference for consumers and Jujube workers to know the Jujube fruit quality on time.

Key words： identification of Jujube fruit quality； factor data； expert assignment rule base； data preprocessing； key factor

棗树是中国特有的果树和经济林树种，也是中国第一大干鲜兼用果树。目前中国拥有世界98%以上的枣树资源和几乎全部的枣产品国际贸易，也是近千万中国农民的主要经济来源[1]。鉴定枣品质优劣决定对该品种枣的处理方向，包括枣品种的选育、改良以及消费者选取适合自己需要的枣果实具有决定性作用。

影响枣果实品质的因子有很多种，但是影响最终决策目标的因素并非是全部因素，找出决定性因素以降低数据处理规模，提高数据分析效率具有重要作用。对影响枣果实品质的因子数据进行预处理，是将枣专家在果园多次尝试并记录下的文本信息以及给出的鉴定结果与计算机技术相结合，通过整理庞大的数据，找出决定枣果实品质的关键因子，并建立数据库，为枣农以及消费者了解任何品种的枣果实提供参考。

1 因子数据预处理的必要性

数据库通常有一个共同的特点，即存在大量的不完整的、含噪声的和不一致的数据[2]。为了使这些数据能够符合数据分析的要求，提高数据分析的效率和得到清晰的结果，必须进行数据的预处理。

对枣果实的因子数据进行预处理，目的是将专家考察后记录的文本信息转化为便于处理的数据。由于实践考察后专家手工记录的原始数据，没有经过系统的整理，规范化程度比较低，例如记录多为：胜似红珍珠、果面平整、酸甜可口等，因子名称不规范、因子属性值不明确、而且还有许多空白值。所以对枣果实品质鉴定的因子数据进行预处理是非常必要的。

专家调查的数据量大、需要处理的原数据为文本信息、后期处理（比如品种推荐、枣品质鉴定）等需要数字化、规范化的数据，并且调查工作具有持续性、周期性（专家每年调查数据以及果农或者消费者咨询专家的建议时提供的数据），所以数据预处理在整个决策系统中占有60%的时间，这也给因子数据的预处理带来了更大的难度和更多的工作量，所以数据预处理需要自动化。

2 因子数据预处理

本研究数据预处理包含过滤噪声数据、填充空白数据、文本信息数字化、数据转化与分析以及数据验证（图1）。

2.1 过滤对噪声数据预处理

本研究的源数据是不同专家到果园进行多次实践品尝记录下的，由于每个人记录习惯的不同，所以大多因子名称以及因子属性的表述不一致，而且手工记录导致噪声数据有很多。只有将这些噪声数据进行有效的处理，后期的决策才会更加准确。

专家记录考察数据的过程中由于节约时间，有许多简化，例如“酥脆”一词，这个词是描述枣果实的两个特征——酥松与清脆。显然使用这个词描述单独的枣果实特征是不合适的；而且在原样本数据中有大量的不规范因子属性名称，例如纵裂、横裂，其实是描述枣果实裂果率；规范因子属性名称使后期枣农以及消费者对枣果实进行鉴定时输入的属性特征更加准确。

2.2 填充空白数据预处理

空白数据是指因子的属性没有赋值，产生空白数据的原因主要有：工作人员在整理专家手工记录的数据时有丢失；专家在品尝枣时觉得某一特征不突出，不需要记录等。

枣果实因子数据中存在很多空白数据，如因子名称、因子属性赋值、专家给出的鉴定结果等都存在缺损的现象。例如因子名称有果肉色泽、果肉质地、果肉粗细、酥脆程度，样本数据集中并不是每一个样本的所有因子都有具体的描述，而且由于多为手工记录，造成因子属性赋值的缺损最为突出。对于解决空缺值，可以采取回归分析，贝叶斯形式化工具或判定树归纳等确定空缺值[4]。

本研究采用忽略该记录，当一个记录中有多个属性赋值空缺、特别是关键信息丢失时，即使是采用某种方法把所有的属性赋值填充好，该记录也已经不能反映真实的情况。对于数据分析来说，这样的数据性质是很差的，应该忽略记录[5]。

2.3 文本信息数字化

专家在品尝枣果实后及时的记录下枣子的特征，所以样本多为文字的形式。为了在后期决策时结果更加精确，需要将文字信息转化为数字形式的数据。专家在实际调查的过程中，选取了枣果实的30个因子采集数据。然后专家根据多年的经验制定了一个赋值规则库，将枣的每一个因子的属性分别赋值，以便于将样本数据进行数字化。

表1是选择枣因子的25个因子举例说明专家赋值库中因子属性赋值为具体的数字形式（表2），例如第1种因子果肉色泽，在专家记录的枣果实样本集中有这样的描述，枣果肉发白、枣果肉色泽偏绿等；专家将果肉色泽分为3种，黄白、白、白绿；并分别赋值0、1、2；将果肉酸甜度分为偏酸、酸、偏甜、甜，分别赋值0、1、2、3、4等。表2是对映表1中枣果实因子的属性名称，并且根据专家规则库对各因子属性分别赋值。

由于样本数据集的数据量比较大，而且样本集在不断地更新，如果依靠人工需要大量的时间，所以在进行数据转化时，可以在Eclipse的综合开发环境下利用Java语言编程，将样本文字信息转自动转化为数字的形式[6]，下面是以果肉颜色为例的自动化程序：

package color；

public class ColorSelected {

public static void main（String[] args） {

String color = "黄白"；

int flag = getColorFlag（color）；

System.out.println（flag）；

}

//获取颜色标志

private static int getColorFlag（String color）{

int flag = -1； //设置默认值为-1

if（"黄白".equals（color））{

flag = 0；

}else if（"白".equals（color））{

flag = 1；

}else if（"白绿".equals（color））{

flag = 2；

}else{

flag = -1；

}

return flag；

}

样本集中可能存在不属于任何一种属性值的数据存在，例如：果肉色泽，如果输入的原样本的数据不是黄白、白、白绿这3种颜色，那么程序将返回-1，针对这些特殊的数据就需要根据专家的意见进行单独赋值。

选择枣果实的19个因子特征，对20份枣果实进行了品质测定，然后利用Java语句将样本集里的文字信息进行自动数据转化，初步预处理的结果见表3。

2.4 数据转化与分析

数据规范化是对数据进规格化处理，将其值控制在指定的范围内[7]。因子分析前，使用隶属函数法对数据进行转化，正相关指标依据归一化公式，将数据控制在0～1的范围内。

Uij=■

式中，Uij和U′ij分别指第i个样品第j个因子的原始数据转化后的数值；Lij指第i个样品第j个因子的原始测定结果；Lmax和Lmin分别指样品组中第j个因子数据的最大值和最小值。

将初步预处理数据矩阵输入MATLAB软件中，输入命令：Uij=（L-min（min（L）））/（max（max（L））-min（min（L）））。

2.5 数据验证

初步评估和判断利用Java语句对样本数据自动转化后，样本数据是否与利用专家规则库赋值有偏差。利用相关性检验对照样本数据检验该字段的值是否超出规定的范围内，如果与专家赋值规则库有偏差，则需要对自动化赋值程序进行改进。然后重复上述的检验步骤，确保不把错误和偏差的数据带到数据决策中去[9]。數字化验证的流程见图2。

3 小结

本研究是将原样本数据为纯文字的信息全部转化为数字信息进行后期的数据研究。由于枣果实的原始样本数据不仅为手工记录，而且记录多为简化以及省略的文字形式，数据的预处理能够降低后期决策过程中的数据噪声度。根据专家规则库的赋值规则然后采用Java语句对枣果实品质样本数据自动数字化，减少了人工带来的误差。在此基础上将数据进行归一化的数据预处理对模型边缘有更强的泛化能力[10]，然后将自动化的样本数据集与专家规则库进行验证，为后期枣农对枣果实的品质鉴定以及推荐提供更加准确的数据。

参考文献：

[1] 孙志鸿，孙忠富，杨朝选，等.果树生态生理数学模拟的研究进展和应用[J].果树学报，2005，22（4）：361-366.

[2] 张博，张超伟.中药方剂数据挖掘中的数据预处理研究[J].电脑知识与技术，2011，7（6）：4016-4017.

[3] BISCHOFF J，ALEXANDER T.Data warechouse practical advice from the experts[M].New York：Prentice Hall，1997.

[4] 李晓菲.数据预处理算法的研究与应用[D].成都：西南交通大学，2006.

[5] 廖开际，刘凤英，胡建军.数据仓库与数据挖掘[M].第三版.北京：清华大学出版社，2013.

[6] 施霞萍，王瑾德，史建成，等.Java程序设计教程[M].第三版.北京机械工业出版社，2012.

[7] 程开明.统计数据预处理的理论与方法述评[J].统计与信息论坛，2007，22（6）：98-103.

[8] 王志谦，朱长征，陈福集.数据预处理在商业企业数据仓库的应用[J].合肥工业大学学报（自然科学版），2002，25（2）：286-289.

[9] 马庆华，李永红，梁丽松，等.冬枣优良单株果实品质的因子分析与综合评价[J].中国农业科学，2010，43（12）；2491-2499.

[10] 张昊，王琪洁，朱建军，等.样本数据预处理对基于BP神经网络的GPS高程拟合的影响[J].大地测量与地球动力学，2011， 31（2）：125-128.