时间:2024-05-04
祝裕璞 李梓 邵国强 张百顺
(大庆师范学院 黑龙江省大庆市 163712)
物体检测技术,通常是指在一张图像中检测出物体出现的位置及对应的类别。
在计算机视觉众多的技术领域中,物体检测是一项非常基础的任务,图像分割、物体追踪、关键点检测等通常都要依赖于物体检测。此外,由于每张图像中物体的数量、大小及姿态各不相同,也就是非结构化的输出,这是与图像分类非常不同的一点,并且物体时常会有遮挡截断,物体检测技术也极富挑战性,从诞生以来始终是研究学者最为关注的焦点领域之一。工欲善其事,必先利其器。对于物体检测的学习,选择一个优秀的开发框架是一件十分重要的事情。下面对目前流行的几种开发框架进行介绍。
OpenCV(Open Source Computer Vision Library)即开放源代码计算机视觉库,目前它已经包含了2500 多个算法,主要算法涉及图像处理、计算机视觉和机器学习相关方法。应用领域覆盖了工业产品检测、医学成像、无人机飞行、无人驾驶、安防、 卫星地图与电子地图拼接、信息安全、用户界面、摄像机标定、立体视觉和机器人等。它可以运行在Linux、Windows、Android 和Mac OS 操作系统上,支持的高级语言包括:C、C++、Python、JS、Ruby、MATLAB 等。
OpenCV 主要特点:
(1)OpenCV使用了两步PR审核。当开发者提交pull request后,PR 首先需要通过OpenCV Buildbot 的自动测试,包括18 种测试配置。当PR 通过了自动测试后,OpenCV 核心团队的成员将会对PR进行审核,若通过则此PR 将会被集成进OpenCV 主版本中。
(2)OpenCV 实现不同平台加速的思想是:写一份代码,则可在不同操作系统平台上运行。对于CPU,OpenCV 使用了parallel_for() 和universal intrinsics API 来实现这个目标;对于GPU,OpenCV 则使用了T-API。用户不需要针对不同的平台编写不同的加速代码,只需使用OpenCV 提供的这些函数和API 则可实现一份代码在不同的平台上运行。OpenCV 内部替用户实现了不同平台上的加速代码。
(3)OpenCV_DNN 模 块在2017年3.4.x 版本中 从OpenCV contrib 进入主干部分,并且随后不断得到改进和更新。DNN 模块实现了深度学习的前向推理计算,它支持Caffe、Tensoflow、Torch、Darknet 模型,无需用户安装对应的深度学习框架,也无需进行模型格式转换。DNN 模块包含了大量的单元测试。在进行推理计算时,后端有多种加速方式可以选择,例如OpenVINO、Vulkan、Tegine、cuDNN 等。DNN 提供了C++/Python 调用接口以及调用实例,比如分类、目标检测、图像分割、定制layer等典型应用。
SLAM 是 Simultaneous Localization and Mapping 的缩写,中文译作“同时定位与地图构建”。它是指搭载特定传感器的主体,在没有环境先验信息的情况下,于运动过程中建立环境的模型,同时估计自己的运动。如果这里的传感器主要为相机,那么这种SLAM被称为“视觉 SLAM”。
周围的人七嘴八舌给他出主意给他提醒他都充耳不闻,径直朝池塘边走去。突然看见一个和他年纪差不多的中年男人,手握一把菜刀朝他齿牙咧嘴比划着什么。还看见在那人背后的池塘水中,有一个小女孩水已经淹到了胸口,边哭边举起双臂,一头拴在女孩手臂上,一头被持刀人逮在手上的绳子正在不断摇晃。
视觉 SLAM 流程分为以下几步:
(1)传感器信息读取。在视觉 SLAM 中主要为相机图像信息的读取和预处理。如果在机器人中,还可能有码盘、惯性传感器等信息的读取和同步。
(2)视觉里程计 (Visual Odometry, VO)。视觉里程计任务是估算相邻图像间相机的运动,以及局部地图的样子,VO 又称为前端(Front End)。
(3)后端优化(Optimization)。后端接受不同时刻视觉里程计测量的相机位姿,以及回环检测的信息,对它们进行优化,得到全局一致的轨迹和地图。由于接在 VO 之后,又称为后端(Back End)。
(4)回环检测(Loop Closing)。回环检测判断机器人是否曾经到达过先前的位置。如果检测到回环,它会把信息提供给后端进行处理。
(5)建图(Mapping)。它根据估计的轨迹,建立与任务要求对应的地图。
某些使用场合中,我们只截取SLAM 的部分功能应用到实际场景中。举例来说只使用VO 部分我们可以得到连续的相机相对运动信息,虽然该运动信息存在累计误差,但应用中对此要求不高甚至不做要求,譬如VR 头显中计算头显设备运动时的位姿。
在2018年NeurIPS 大会上,Facebook 推出了PyTorch 1.0 版本,该版本吸收了Caffe 2 和ONNX 模块化及面向生产的特点,使得算法可以从原型快速无缝对接到生产部署中。这意味着,PyTorch 的生态将更加完备,在进行算法原型研究、移动部署时将更加便利。
表1:几种流行的开发框架的对比
PyTorch 以它良好的扩展性和超高的实现速度,近年来已赢得了不少开发者的喜爱和赞赏。首先,PyTorch 支持 GPU,这就能够显著提升代码的运行效率。同时,相比 TensorFlow 和 Caffe,PyTorch 拥有反向自动求导技术,让你在调整自定义模型的时候不必从头开始,帮助你节省不少的开发时间。
此外,PyTorch 的代码还比 TensorFlow 的代码更加简洁直观、友好易懂,堪称是非常优质的学习案例,这也能帮助许多开发者更深度地理解机器学习。
几乎涵盖所有主流的物体检测算法,包括VGGNet、ResNet、 FPN、DenseNet 和DetNet 等卷积基础网络,以及从Faster RCNN、 HyperNet、Mask RCNN、SSD、RefineDet、YOLO v1 到YOLO v3、 RetinaNet、CornerNet 和CenterNet 等物体检测算法,呈现给读者一个完整的知识体系。
2020年,Facebook 开源了PyTorch 3D 计算机视觉库,这个框架将3D 计算机视觉和深度学习结合,用于对三维数据的预测和计算。PyTorch 3D 实现了以下新特性:
(1)一个可微分的网格生成器。
(2)高效处理三角网格的算子,如投影变换、图卷积、采样、损失函数等。
(3)他们提出了新的3D 数据结构——Meshes,这种数据结构可以更好地存储和修改三角网格的数据。
2015年,谷歌大脑(Google Brain)团队推出了深度学习开源框架TensorFlow,其前身是谷歌的DistBelief 框架。凭借其优越的性能与谷歌在深度学习领域的巨大影响力,TensorFlow 一经推出就引起了广泛的关注,逐渐成为用户最多的深度学习框架。
Tensorflow 实现了“Openpose”人体姿势估计算法。它还提供了几种变体,这些变体对网络结构进行了一些更改,以便在CPU或低功耗嵌入式设备上进行实时处理。
2020年,谷歌AI 推出了 TensorFlow 3D(TF 3D),它是一个开源的、高度模块化和高效的处理库,将3D 深度学习能力引入到了TensorFlow 框架中。TF 3D 库基于 TensorFlow 2 和Keras 构建,使得更易于构建、训练和部署3D 语义分割、3D 实例分割和3D 目标检测模型。TF 3D 提供了一系列流行的运算、损失函数、数据处理工具、模型和指标,使得开发、训练、部署3D 场景模型更加地方便和高效。TF 3D 还包含用于SOTA 3D 语义分割、3D 目标检测和3D 实例分割的训练和评估 pipeline,并支持分布式训练。该库还支持3D 物体形状预测、点云配准和点云加密等潜在应用。此外,TF 3D 提供了用于训练和评估标准3D 场景理解数据集的统一数据集规划和配置,目前支持Waymo Open、ScanNet 和Rio 三个数据集。
随着深度学习的快速发展,计算机视觉在多个领域都取得了令人瞩目的成就。同时,日新月异的深度学习技术也推动了许多开发框架的快速更新,表1 对几种流行的开发框架做简单的对比。
支持物体检测的开发框架还有很多,例如,MXNet、Keras、Caffe 等,每个框架都有自身的优势和不足,开发时选择哪一个框架也没有一个统一的标准,很多应用往往需要使用2 个或2 个以上框架共同完成开发任务。所以开始一个新项目时,可以根据需要选择更适合的开发框架。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!