基于机器视觉的采摘机器人目标识别定位研究应用进展

时间：2024-05-04

孔翰博王克强蔡肯林钦永陈楚君

（仲恺农业工程学院广东省广州市 510225）

20 年代中后期，美国学者Schertz 和 Brown 首次提出利用机器人作用与水果收获过程中，利用机器人对水果采摘过程进行简化。经过世界各国学者的研究和实验，目前已开发出各种类型的拾取机器人，但在实际应用中还存在许多问题。据统计，作物采摘已经占中国劳动力的三分之二以上，面对今天的高劳动力成本和巨大的劳动力人口。采摘机器人的设计目的是实现高效摘庄稼，同时降低巨大的采摘成本。然而，现有的采摘机器人样机由于采摘效率低，尚处于一个实验进行研究发展阶段，因外界环境因素的不稳定性导致采摘机器人的应用问题一直都是没有可以达到普及水平。影响因素概括为：目标生长状态的变化；枝叶和枝干的浓荫以及簇的生长；光照强度和夜间采摘的影响；此外，崎岖的地面和机器人同时运行时机械手的自由度给实际应用造成了很大的困难。针对实际环境下选择机器人的精度、实时、稳定性和本地适应性，特征进行提取信息技术，机器学习的多种算法和深度合作学习的各种网络模型为其提供了巨大的支撑。从早期基于颜色，形状，纹理等图像特征的提取到传统的机器学习算法的使用，再到先进卷积神经网络下的深度学习模型的广泛应用。国内外学者针对多种算法或多种模型的实验，取得了良好的效果。

针对上述问题，本文主要介绍和总结了近年来在识别和定位领域的研究进展和成果，通过对比分析几种算法和模型与其他学者结合对原算法和模型进行改进的优势和局限性。并且以数据精确性，实时性，稳定性和广泛性为标准来鉴定分析算法和模型的设计可行性。最后，对当前大数据时代的相关技术进行了讨论，希望从面部识别、动态捕获技术应用于农业识别和定位等行业中学习，希望为相关工作提供帮助。

1 目标检测与目标识别

1.1 基于特征提取的作物识别

特征是表示对象的数量。识别算法必须选择合适的特征。这是保证算法有效性的关键。良好的图像特征可以让物体在特征空间中更好地分离，减少算法的负担，更省力地提供乘数效应。颜色、形状和纹理特征在目标的检测中最为常用。在以往的研究中，研究人员通过对颜色、特征、纹理等图像特征进行分割来检测水果等一些农作物，但由于外部因素，单个特征或两个特征总是存在检测精度误差。原因是一些外部因素给实验带来的影响。由于这种限制，使用传统的数字图像处理，将作物特征两种或两种以上的多功能检测方法来有效提高检测的准确性。

1.1.1 基于颜色的特征处理

作为全局特征，可以使用图像颜色来描述与所确定的区域相对应的图像或场景的表面特征。例如，对于果实颜色与枝条、叶片和枝条差异较大的作物，提取颜色作为其特征是可行的，如苹果和荔枝。2012 年Zhou 等提出了一种基于色差R-B（红色-蓝色）和G-R（绿色-红色）的苹果识别算法，但此方法适用于杏、桃、油桃和柑橘等颜色特征较为明显的水果作物。研究资料发现，多数的学者大多利用RGB,YCbCr,Lab 和HSV 等颜色空间来提取出目标作物的颜色特征并且组合阈值分割出目标作物的轮廓特征，从而进行识别。Peng 等在以往研究的Otus 算法的基础上，改进进行了双次Otus 分割的多目标色彩识别算法，延续了在一定程度上不受图像对比度与亮度变化影响并且基本克服了传统Otus 分割算法对3 类目标对象无法处理的问题。但是当目标进行作物与其发展背景不同颜色相似时（例如青柑橘与其绿叶颜色相似时），该方法会出现问题无法通过分割导致检测失败的情况。

1.1.2 基于形状的特征处理

形状特征提取算法在背景和颜色难以区分或存在遮挡等问题时更容易检测。描述目标形状特征的主要包括轮廓形状和区域形状两种类型。Chen等运用傅里叶描述子原理，提取油茶果形状特征并识别，提取油茶果和树叶的8 阶归一化傅里叶描述子特征，用SVM 方法分类识别正确率100%。区域进行形状可以描述中的分水岭算法对微弱的边缘网络信息技术有着一个较好的响应，Zhang等在传统的分水岭算法中引入形态学重建，在消除噪声的同时避免了过度的切割，较完整的完成了对目标边界的识别分割。

1.1.3 基于纹理的特征处理

纹理是近年来许多学者在特征提取中最常用的因素，对于背景颜色、遮挡等干扰下的目标分离具有重要意义。局部二值模式（local binary patterns, LBP）算法由T.Ojala 等人提出，是一种针对图像局部纹理特征信息提取的补充算法，具有计算复杂度低；无需训练学习；光照不变性；易于工程实现的优势；之后在LBP 的基础上提出了WLD 纹理描述符，并设计了基于局部纹理描述符和形状、大小特征的枣果自动分类系统，展示了纹理特征下的纹理描述符提取结果优于颜色，形状特征，结合选定的WLD 描述符与YCbCr 颜色空间中的形状和大小特征相结合，最高精度可以达到98.1%。

1.1.4 基于多特征集成处理

在自然条件下，外部因素的影响往往导致特征提取效果较差。例如，反射光的强度因照明条件不同而不同；作物果实被枝、叶、枝和簇遮挡也会影响形状和大小的特征提取。上述因素影响下下，单一的特征进行提取（颜色，形状，纹理等）并非是一个最佳的办法。Wang等结合HSV 和形状特征融合的方法对花椒进行识别，在不同光照条件下识别率有了不同的提高，平均条件下识别率达到94%，在遮阴，背光，顺光条件下均比传统的HSV 颜色空间算法识别率得到了提高。

1.1.5 缺陷检测

有些农作物在生长和运输过程中会出现皮肤缺陷。以胡萝卜为例，对胡萝卜的表皮缺陷进行检测是识别过程中一个非常具有重要的环节。

胡萝卜缺陷包括青头、弯曲、分支、断裂、开裂等，对于不同的缺陷需要不同的算法：

（1）青头检测是利用正常胡萝卜区域和绿头区域之间的色差来实现的，在HSV 颜色空间中，胡萝卜图像用于确定绿头区域H、S 和V 的识别阈值。区分了胡萝卜与存在缺陷的胡萝卜之间的形状差异。

（2）凸包算法、Hu 不变矩和Harris 角点检测算法分别用于检测胡萝卜弯曲、断裂和分支缺陷。

（3）裂纹检测使用胡萝卜正常和裂纹区域的纹理。

（4）差分实现、Sobel 水平边缘检测算子、canny 边缘检测算子结合形态学操作实现胡萝卜裂纹区域提取。综合以上算法，对缺陷胡萝卜的识别有了较高的正确率。

1.1.6 特征提取的总结

综合颜色，形状，纹理和缺陷等特征的检测中（如表1所示），我们不难发现，当作物颜色明显可以区分或者与背景颜色区分较大时，可以以颜色作为主要的提取特征，例如杏、桃、油桃和柑橘等颜色较为明显的作物。但颜色特征过于依靠光照的理想情况，所以通常在人工条件下进行颜色的提取。对于果实颜色与其背景相似时，形状特征可以作为主要提取特征，如青色系水果与枝叶颜色相似，可以检测其形状来提高识别的精准度。当作物被枝叶或簇的遮挡严重时，纹理特征可以更快速准确的识别出目标作物。当农作物表面的缺陷检测被破坏时，可以很好地对受损农作物进行分类，为后续的识别提供了方便。通过提取多个特征，可以大大提高目标识别的精度和对于复杂实际环境的适应性，并且可以大大降低非人工条件下的约束。

表1：传统的目标检测及识别方法的对照

2 机器学习

机器学习作为人工智能的核心技术，是人工智能的实现方式。它自动通过经验和多个学习样本优化模型，得出无法通过数据分析总结得到的规律。通过国内外学者的研究，目前机器学习可以分为四大类：分类、回归、聚类和规则抽取。

2.1 传统机器学习算法

机器学习算法可以分为三大类，分别为有监督、半监督和无监督，监督学生学习方法主要内容包括分类和回归算法，无监督学习能力主要研究聚类算法。结合机器学习在采摘机器人上的应用，本文章综合概述K-means 聚类算法，贝叶斯分类器算法，KNN 聚类算法，SVM 支持向量机算法四种算法在针对不同的实际情况时的使用情况。

2.1.1 基于K-means 聚类算法

K-means 聚类是一种无监督分类的方法，聚类的目标是未标记的数据，K-means 算法最重要的问题就是选择初始集群中心并建立距离测量功能。Jiang改进了一种随机选择常规K-means 算法的集群中心的方法，并提出了一种基于直方图的集群中心自动检测方法。形成的集群中心合理、有效，可以大大减少后续集群的迭代时间。Wang基于K-means聚类的litchi 识别算法被呈现为将litchi 与叶子、分支和背景分开，未遮挡和部分遮挡的利奇的平均识别率分别为98.8%和97.5%。总而言之，该算法具有较高的识别和分类精度，但其缺陷也比较明显。首先我们需要进行提前给出K 值，但是很难提前给出K 值。其次，K 中心的随机选取对最终分类结果有很大的影响。

2.1.2 基于贝叶斯分类器算法

贝叶斯分类算法是监督学习的学习算法。该算法研究广泛应用于大规模数据库，具有高分类精度和高速发展速度的优点。然而，缺陷也很明显，需要获取目标的概率信息才能进行准确的计算，当训练集中出现新样本时，精度可能会受到影响。Li 等使用朴素贝叶斯分类器对水果和非水果区域进行分类。该算法消除了绿色番茄和绿色枝叶背景颜色过于相似而造成的局限性，检测率达到86.7%。该算法消除了绿色番茄和绿色叶片背景颜色过于相似的局限性，检测率为86.7% 。但实验的缺陷也十分具有明显，在应用于各种不同应用场景，光照强度可以改变或番茄成熟发展过程颜色像素的改变学生会对先前的数据集造成较大影响。

2.1.3 基于KNN 聚类算法

KNN 算法也被称为K 近邻分类算法。是一种简单的根据不同特征值之间的距离进行分类的机器学习方法，属于监督学习。它的训练数据都是有标签的数据，即训练的数据都有自己的类别。Ma等提取目标作物的颜色和纹理两个特征，提出了一种基于PCA 降维与距离集成的KNN 算法，结果分析表明，该算法在作物的识别中识别率可高达92.6%，并且对光照时间变化，视角进行变化发展都有一个较好的鲁棒性。在此实验的基础上，如果采用K-means 聚类与二次分水岭相结合的方法对图片进行分割可以得到更好的效果。

2.1.4 基于SVM 支持向量机算法

SVM 是一种有监督的统计学习算法，可用于线性和非线性回归分析和模式分类。对于线性可分分类，支持向量机通过非线性平面分离两类之间的最大间隔。

SVM 分类器在光照偏强的环境下对果实图像数据分割精度优于贝叶斯分类器，并且可以采用SVM 可有效管理实现含大量高光点果实图像的分割，适用于在不同光照条件下的果实图像分割，Chen 等引入目标轮廓的HOG 梯度方向特征训练支持向量机，进而对提取的轮廓进行细筛选，实现自动识别目标。以成熟苹果作为实验的对象，识别准确率可以到达93%，Mai在苹果分割中，使用苹果图像和背景图像训练集对SVM 进行训练，然后使用训练好的SVM 苹果颜色分割方法对待测图像的苹果和背景进行分割。该算法在较小的训练集中表现良好，但在较大的训练集或多分类任务中，分类识别的准确率会降低。

2.1.5 总结与对比

与上述四种算法相比，每种算法都有相应的优点，但也有一定的局限性，经过比较和分析，可以得出以下结论：

K-means 聚类算法明显简单且易于实现。为了处理大数据集，算法针对不同数据集具有一定适应性，并且处理速度较快，并且当集群之间的差异明显时，集群效应更好。然而，在比较数据时，难以选择K 值的初始值和集群中心，对数据类型要求较高；KNN 聚类算法可以进行回归计算和分类计算。没有数据的假设，精度高。可以在不直接重新设置新数据的情况下添加到数据集中。当K 值大时，可以减小学习的估计误差，但是具有增加学习的近似误差的缺点。K 值的选择可以预测发生错误，增强算法对于异常情况的适应性，所以K 值的选择也是KNN 聚类算法的关键性问题；贝叶斯分类器算法在小规模数据集中具有良好的性能，可以处理多个分类任务，但是仅仅能够处理具有计算概率的数据集。对未处理过的样本，识别功能可能会失效;SVM 支持向量机算法对二分类的任务精确度很高，当大样本或者多分类任务时，处理结果相对不好。

综上所述（如表2 所示），机器学习算法还存在逻辑回归，决策树等多类算法，相对于机器视觉技术的应用可能还需要开发，例如AdaBoost 特征算法具有高精度的优势和处理时间过于长的局限性。所以在算法的应用性上面，还需要更多尝试和研究。

表2：机器学习经典算法应用对比

2.2 深度学习与人工神经网络

2006 年深度学习算法的提出使得机器学习在众多领域的应用取得了里程碑的进展，深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。深度学习与人工神经网络模型的建立，对于机器视觉识别技术的应用，都达到了极好的成果。本节总结了在检测目标时常见的深度学习模型。

2.2.1 卷积神经网络模型

卷积神经网络模型（Convolutional Neural Networks,CNN）的结构分为输入层和隐含层，卷积神经网络的输入层可以处理多维数据，与其它神经网络算法类似，由于使用梯度下降算法进行学习，卷积神经网络的输入特征需要进行标准化处理；隐含层包含卷积层、池化层和全连接层3 类常见构筑。

Philipe等提出了一种基于CNN 的新型花卉检测的方法。该算法明显优于HSV、HSV+bh、HSV+SVM 三种算法，识别率平均高达90%。深度学习模型与机器学习算法以及一些特征提取的互相结合往往是目前在应用领域比较常用的办法，Cai 等提出了一种支持向量机(SVM)苹果果实识别方法，该方法使用卷积神经网络提取苹果的大小、颜色、纹理和圆度作为苹果特征，试验结果显示，同时使用CNN 和SVM 分类器的融合模型比单独使用简单的KNN 聚类算法，SVM 和CNN 模型的苹果果实识别准确率要高得多。

2.2.2 AlexNet 和VGGNet 网络模型

AlexNet 模型在CNN 中使用重叠的最大池化。此前，CNN 中普遍使用平均池化，AlexNet 全部使用最大池化，避免平均池化的模糊化效果。此外，AlexNet 提出让步长度小于池内核的大小，这样池层的输出就会重叠覆盖，提高了特征的丰富性。Wang采用Tensorflow 框架构建基于AlexNet的全卷积神经网络AlexNet-FCN，建立荔枝表皮缺陷提取的全卷积神经网络模型特别是当缺陷区域与正常区域的像素值差异较小时，模型表现明显优于常规算法。

VGGNet 由5 层卷积层、3 层全连接层、softmax 输出层构成，层与层之间使用max-pooling（最大化池）分开，所有隐层的激活单元都采用ReLU 函数。Song等构建了VGG16 实施的Faster R-CNN 模型并且进行了训练。在不同的时间和照明条件下采集的奇异果图像被检测良好，识别率达到了87.61%。

相比于AlexNet 模型和AGGNet 模型，前者相对于有灵活的卷积核数，灵活的每个block 池化层前的卷积核层数，完全依赖于模型和实验本身，但速度慢准确率较低。后者比AlexNet 深，13，16，19 层均可，但是训练时间过于长。

2.2.3 Faster R-CNN 网络模型

Ross B. Girshick 在2016 年提出了新的Faster R-CNN，相较于R-CNN 和Fast R-CNN 提高了检测速度和精准度，真正的实现了端对端的目标检测框架。

Xiong等以树上绿柑橘为研究对象，3 组对比试验证明了基于Faster R-CNN 算法进行绿色柑橘检测的有效性，试验结果表明，Faster R-CNN 模型不仅适用于单果的检测，对于多果的检测精度也较高。在面对与背景极其相似的颜色特征下，最终识别率达到85.49%，同时满足了实时检测的要求。

2.2.4 单阶段检测模型

目前基于深度学习的卷积神经网络模型可以分为两大类：一类是以RCNN，Fast R-CNN 和Faster R-CNN 为代表的两阶段检测模型，一类就是SDD 网络检测模型和YOLO网络检测模型。相对于两阶段检测模型，在实时检测方面优于上述的区域推荐，而准确率方面则相对较差。

2.2.4.1 SSD 网络检测模型

SSD 物理检测模型相较于其他检测模型，SSD 便于训练和优化，同时提高检测速度。这是一种用于多个类别的单阶段检测模型，它是一种针对多种类型的单相检测模型，与其他单结构模型(YOLO)相比，SSD 具有更高的精度，因为它完全消除了推荐生成和压缩像素或特征重采样阶段，并将所有计算封装在一个单一的网络中。Peng等文以苹果、荔枝、脐橙、皇帝柑4 种水果为研究对象，提出了一种将经典SSD深度学习模型中的VGG16 输入模型替换为ResNet-101 模型，有较好的泛化性和鲁棒性，可以很好地实现自然环境下多类水果的精准检测。四种对象的平均检测率可达到96.12%。

2.2.4.2 YOLO 网络检测模型

YOLO 为一种新的目标进行检测技术方法，该方法的特点是可以实现快速检测的同时还具有较高的准确率，YOLO将目标区域预测和目标类别预测整合于单个神经系统网络结构模型中，实现在准确率较高的情况下快速学习目标检测与识别，更加适合实际应用研究环境。

YOLOv1 是这类模型的开始。YOLOv1 方法模型训练依赖于物体识别标注数据，因此，对于非常规的物体形状或比例，YOLOv1 的检测效果并不理想，平均精度仅达63.4%。对比YOLOv1 模型与R-CNN 系检测模型其对背景的检测率更高，但定位的准确度不及R-CNN 系列模型。

相较于其他先进的检测系统，YOLOv1 存在着各种各样的缺点，Joseph Redmon 在YOLOv1 的基础上进行改进，提出了YOLOv2 并且提出了一种检测与分类联合训练方法，由于光照的多样性、背景的复杂性及芒果与树叶颜色的高度相似性，特别是树叶和枝干对果实遮挡及果实重叠，Xue等提出Tiny-yolo 网络结构，实现网络多层特征的复用和融合，提高检测精度，对前景区域用YOLOv2 进行训练，大幅减少了遮挡或重叠对识别的干扰，在较少遮挡的情况下识别率可达97.02%，在遮挡或重叠影响下，识别率可达95.1%，相比与Faster R-CNN 模型性能大大提升。随着卷积神经网络的发展，2019 年，Joseph Redmon 又对YOLOv2 网络进行了改进提出了YOLOv3，它直接通过回归生成每个类的边界框坐标和概率，大大提高了检测速度。Tian提出了一种改进的YOLOv3 模型，结合DenseNet 方法，用于检测光照波动、背景复杂、苹果重叠、树枝和树叶的果园中不同生长阶段的苹果，效果几乎好于先前的模型。

结合了大量前人研究技术，加以组合并进行适当创新的算法，Bochkovskiy A 提出了YOLOv4，实现了检测速度与精度的完美平衡。在农业定位应用中不同程度的遮挡都给检测的准确率造成巨大的困难，Chen针对遮挡，目标较小，噪音等提出一种基于YOLOv4 的改进算法，采用Canopy 算法与K-Means 算法得到更好的先验框值并且在YOLOv4 网络中每个不同尺度特征的输出层前增加一个调整层，并采用残差网络结构和密集连接网络相结合。最终对果园生长环境下的不同生长期的柑橘平均检测率为96.04%。

2.2.5 总结与对比

本章基于深度学习和人工神经网络，对几种识别定位模型进行了总结。以目标检测流程进行分类，大致可以分为两类，一类单阶段检测模型：SSD 检测模型和YOLO 检测模型，另一类就是R-CNN 系列的两阶段检测模型：R-CNN，Fast R-CNN，Faster R-CNN 检测模型。通过对比发现，R-CNN系统的两阶段检测模型通常速度较高，但速度较慢，单阶段检测模型速度较快，但精度较低，检测幅度越小，检测精度越低。

深度合作学习中还有我们很多问题模型未提及，例如FCN 全卷积神经网络信息模型分析可以通过接受任意尺寸的图像，SegNet 作为一种比较研究热门的语义分割模型，不仅能识别果实，还可以分割出果实与枝干的边缘轮廓，为采摘机器人发展提供摘取目标。示例分割模型在遮挡严重的情况下具有很强的鲁棒性，很多学者利用CNN 网络对其进行了改进，但也存在实时性差的问题。三种深度学习检测模型对比如表3 所示。

表3：三种深度学习检测模型对比

3 目标定位与采摘机器人

随着国内外学者的发展，采摘机器人经过多次改进和迭代，已经从研发阶段转变为实验阶段，并将用于农业生产过程中。在机器人自主化作业设计过程中，快速、准确地对成熟发展农业经济作物进行市场定位和识别一直是采摘机器人通过研究的重点和焦点解决问题。然而，其目标定位成像技术往往会导致风速、噪声、振动、光照等印象中的成像重叠和模糊问题，导致最终的目标定位不准确，影响了拾取效率。因此，本章总结了近年来广泛应用于目标定位的技术以及拾取机器人的结构和发展。

3.1 目标定位技术

在国内外众多学者广泛的研究下，目标定位技术分为以下几类：单目及双目等立体视觉相机、深度相机与红外测距技术。下面就将介绍几种相机及在实际环境下的应用情况。

3.1.1 单目和双目等立体视觉相机

单目相机应用于早期的采摘机器人中，起始的相机不具备RGB 功能，1987 年Whittaker 将黑白相机应用于采摘机器人，所局限性较大。之后研发的具有传感器的RGB 单目相机，仍存在较大的误差。双目和多目等立体三维相机的应用虽然能有比较精确的获得图像，但考虑到光照的影响，夜间对目标的识别效果不好。利用单目相机对单幅、两幅和多幅的图像进行定位。单目相机有结构简单成本低的特点，所以相对应它的误差相对较大。

双目照相机模仿人眼的视觉原理，从具有已知相对位置的两个照相机观察物体，从不同视点获取场景图像，并使用图像之间的匹配关系获得目标的三维信息。这种视觉定位方法具有简单的操作和高精度的优点。

Wang采用双目RGB 相机标定和荔枝图像采集，使用基于几何中心的匹配方法来匹配所识别的聚类水果。实验结果表明，该识别方法能够抵抗光照和遮挡条件的影响，准确识别聚类荔枝果实，匹配成功率为91.96%-97.37%。

3.1.2 深度相机与红外测距技术

深度相机由彩色相机、深度相机和激光组成，依据结构光和飞行时间大致非为两类：结构光类深度相机受光照和目标纹理影响较小，针对动态事物捕捉能力较低；（通常看不见的光）透过观测到的物体，然后接收从物体反射的光脉冲，通过检测光脉冲的往复（往复时间）来计算被测物体和照相机的距离的原理。那个具有抗外部干扰的强度。Kusumam K提出使用RGB-D 传感器的机器人收获西兰花的三维视觉系统，得到一个高精度的西兰花头部检测系统。

夜间条件下，获取图像深度会因为光照强度的影响，所以在这种情况下，红外技术是不错的选择，基于红外技术的红外测距仪Zhang采用基于近红外线性阵列结构照明和三维重建技术的机器视觉系统实现苹果茎和花萼的识别以及定位。夜间条件下，利用红外测距仪结合其他特征提取算法对目标的识别和定位有了巨大帮助。

3.2 采摘机器人的研究进展

采摘机器人发展以来系统结构相似，由自主移动平台、轻度多自由度机械臂、具有柔性末端效应器的力反馈系统、多传感器机器视觉系统、驱动控制系统、智能决策系统以及辅助软件和硬件组成，同样机器人同样需要有网络传输系统，水果收获机器人的首要任务是使用视觉感应感知和学习作物信息。其任务包括相机校准、目标识别和定位、目标背景识别、3D 重建、基于视觉定位的机器人行为规划、机制和视觉。该系统也是协作的，并使用视觉伺服控制拾取机制执行剪切操作。目前对采摘机器人的研究中，难点在于基于机器视觉技术对不同作物种类和环境变化的感知和适应，虽然国内外学者针对不同的环境及其外界因素进行研究，但解决基于机器视觉的采摘机器人在实际情况的应用仍是一大难题。

4 在农业应用方面的挑战展望

4.1 在农业应用方面的挑战

农业工程的主体主体以农田为主。与工业领域不同的是，这里存在着巨大的不确定性。土壤、水、风速、光等关键因素都在不断变化。农业场景的开放性决定了基于机器视觉的采摘机器人的应用充满了困难和挑战。

纵观目前的各种作物识别的算法及模型，尽管经过不停的迭代改进仍是存在一定的局限性，并且大部分改进或结合算法都在理想情况下进行实验。所以复杂的实际环境是采摘机器人应用困难的主要原因之一。传统的图像识别技术，利用特征提取来对目标进行识别，但受到光照，遮挡等因素影响严重；机器学习的传统算法，虽然对目标有不错的检测识别率，但大部分的数据都通过预处理或是提前通过计算得出概率，在多变的实际情况中难以应用；基于人工神经网络的深度学习技术的诞生，对目标识别做出了巨大的贡献，能够较好的识别出目标作物，但却需要巨大的训练集，并且对训练时间、硬件条件的要求比较高。基于深度学习的卷积神经网络需要面对的另一个问题就是定位，生长状态下的作物利于苹果等会发生颜色，形状的改变，甚至会出现缺陷状态。生长环境的不确定性让训练集不停的扩大，网络结构也越发复杂相对应的训练时间就越长，导致采摘机器人效率低下实时性差。

同样对于采摘机器人的末端执行器的使用也决定了采摘机器人的工作效率，在控制机器人对定位目标进行采摘时，若目标存在遮挡或成簇成长时，会致使末端执行器损坏或者目标作物的损坏。同样末端执行器上面的定位系统也十分重要，在采摘机器人的机械臂启动过程中定位信息要不停更新，这就要就定位系统的计算效率和实时性来保证定位的准确性。在使用定位系统时，单目相机的速度快但误差较大，双目或多目相机等立体视觉系统虽然会得到较为精确的信息但时间长同时操作困难。

综上所述，基于机器视觉技术的采摘机器人在实际条件下的应用充满巨大挑战，在有算法和模型的支撑下，还需要硬件与其结合使用。这样的难度导致即便现在有着大量的作物识别、定位的文献，但这个领域仍旧是农业研究的主要问题。同样野外环境下，采摘机器人的路径规划，障碍物的躲避以及陆地的崎岖性同样是将采摘机器人应用于现实中的困难问题。

4.2 农业应用方面的未来展望

目前是大数据、云计算与人工智能飞速发展的时代，而农业方面主要面对的问题大概分为三种，自然环境的影响，作物生长的状态特征提取，末端执行器的使用及定位的准确性。工业方面的面部识别，动态捕捉技术的发展以及趋于成熟，是否农业方面可以借鉴工业相关技术的技术进而应用到农业应用中。现阶段基于深度学习的特征提取往往是在特定环境下针对特定的作物，是否能根据大数据而提出新的包括特征相似作物的训练集进行预训练，从而提高识别的广泛性。其次针对末端执行器，是否能使用多传感器融合在执行器上的研究，进而截取某种传感器的优势来弥补另一种传感器是局限性。最后针对大数据的信息储备已经云计算的高效率是否能为农业方面卷积神经网络的训练而提供便利，后续尝试将这二者技术与现在模型相结合是否能做到更好的效果是需要国内外学者进一步研究。

5 总结

本文从识别、定位及采摘机器人于实际中的应用和挑战三方面对目前领域的研究进行归纳对比，识别技术中基于传统的特征提取手段是将目标作物的颜色，形状和纹理作为早期的研究重点进行提取进而进行目标的检测与识别，后续的将多特征提取融合，一定程度的弥补了单特征中存在的局限性同时也提高了识别的准确率；基于传统机器学习算法有良好的性能，一些学者通过与特征提取的结合也得到不错的识别率，但需要参数的设定以及先验概率的计算的前提条件，所以良好的性能和不错的识别率仅仅是在理论研究或者理想环境下，实际应用中的多变性依旧给传统的机器学习算法带来一定的局限性；基于卷积神经网络的深度学习的多种模型和经过对应用场景的实验后的改进迭代，使深度学习模型对于外界因素具有一定的适应性，另外其中的分割模型对于遮挡，重叠目标可以做到分割出枝干，一定程度上解决了目标处于被遮挡状态时检测效果不理想的情况。综上可以看出，深度学习模型的应用相较于前面的研究，具有更高的检测精度，稳定性和广泛性，同样这几个标准也是决定了对于识别系统在现实中的应用效果。

定位系统的研究主要对于单目双目以及多目相机的立体视觉系统、深度相机、红外技术的应用，在晃动、遮挡、夜间、光照等因素上，如何使用上述系统进行目标的定位是研究的首要重点。采摘机器人的发展存在更多局限性，不仅仅是上面提到识别定位技术的困难，同样在机器人运行情况下的自由度、路面的崎岖性等对机器人本身造成影响的因素也为实际的应用增大了难度。但针对进一步机器视觉应用领域的研究，结合工业视觉定位技术，结合云计算大数据等目前前沿技术是否会为目前的问题提供解决办法是值得我们去考虑和研究的。