大数据分析技术的运动视频内容分类算法

时间：2024-05-04

刘晓晨

（河南财政金融学院，河南郑州 450046）

0 引言

大数据分析技术是计算机科学的一个分支，它企图了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应[1]。该技术领域包括机器人技术、语言识别技术、图像识别、自然语言处理与专家系统等。随着理论与技术的不断成熟，大数据分析技术涉及到的领域也不断丰富，其中一项应用就是在运动视频内容的分类上。运动是人类发展过程中逐渐开展的、培养自己身体素质的活动，主要有走、跑、跳、投以及舞蹈等多种形式，这些动作通常称作身体练习过程。常见的运动包括田径、球类、游泳、武术等[2]。研究运动视频内容的计算机处理、分析和理解技术，可方便用户查询和浏览。利用大数据分析技术分类运动视频内容，可以帮助电视台在众多形式的视频中快速地找到想要的运动项目视频。在运动软件开发时，将分类后的视频用于视频教学模块中[3]。

1 基于大数据分析技术的运动视频内容分类方法

1.1 提取内容感知特征信息

运动视频的感知特征通过直观视觉就可以判断出，大致为颜色特征、形状特征与运动特征。随机截取运动视频中的一帧，如图1 所示。

图1 选取运动视频中的一帧

采用颜色的一阶矩、二阶矩和三阶矩计算，获取颜色特征信息量，此时假设pij是图像中第j个像素的第i 个颜色分量[4]。所以此颜色分量的上矩计算表达式为：

式中：ui表示一阶矩；σi表示二阶矩；si为三阶矩[5]。

均匀分割图1 截取的某帧图像，分割后如图2 所示。

图2 分割后的图像

使用形状无关矩方法提取分割后的图像特征，设分割后的图像为f(x,y)，使用f(x,y)中的非零像素点表示形状区域R，则R 的第p+q 阶矩为：

将式（2）与式（1）的矩综合联立计算，得到形状特征信息量[6]。

运动特征是运动视频中连贯特有的特征，将视频内容分为背景与前景，这里的背景运动是由摄像机运动造成镜头中所有点的整体运动，前景运动指的是被拍摄物体在场景中的运动[7]。所以，提取运动特征时，要先估计全局运动信息，使用运动中摄像机形成的视频序列计算不同帧上的空间位置。

设{ai}是全局运动的一组参数，(x,y)是捕捉到的视频画面中的一点，(u,v)是下一帧上对应的点，那么全局运动的点就可以表示为：

选取足够多的点，重复使用式（3）不断变换，得到全局运动的特征信息，此时感知特征信息提取完毕，根据特征信息构建视频分类人机交互模型[8]。

1.2 构建视频分类人机交互模型

将视频结构化处理，切分视频流中的连续帧序列，按照不同运动项目的视频流，分成若干语义段落单元[9]。标记区域R，计算镜头边界中的帧图像f 与标志模板中样例图像的距离d，当d 低于式（1）中的一阶矩时，融入视频提取特征的三阶矩，构造出三层的交互通道结构，如图3 所示。

图3 交互通道结构

将模型设计为五部分：用户、人机交互对象构件、表现构件、对话控制构件和应用程序构件[10]，将后四部分放入交互通道结构中。

在用户模块设计多种交互工具，响应摄像机等反馈设备获取的信息。设计人机交互对象构件，每一个构件对应一个交互设备，如语音构件实现对语音的识别管理，将运动视频动作转换为内部形式[11]。使用传感器构件完成运动到加速度信息的转换，将视频内的各种物理动作抽象为交互方式的原语，放入交互方式原语队列中。驱动表现构件处理视频内的动作，将结果反馈给用户，使用表现构件将反馈给用户的结果转化为含有交互概念的原语[12]。

设计对话控制构件，将含有交互概念的原语排入交互任务原语中，完成视频分类人机交互模型的建立。具体的模型如图4所示。

图4 视频分类人机交互模型

1.3 实现内容分类

使用构建的视频分类人机交互模型实现运动视频内容的分类，训练获取的感知特征信息数据，通过数据采集模块实现对样本数据采集和样本数据筛选。对样本筛选的目的是去掉“离群点”，减少这些“离群点”对分类器的干扰[13]。

为实现后续分类的有效开展，视频数据的原始训练样本要满足以下几个原则：保持多样性，使得正负样本数量能够达到一定的规模；样本筛选要尽可能地避免有二义性样本的存在；在样本的质量上有助于提高算法的鲁棒性和容错性。

在对样本进行特征提取后，采用视频内容分析及特征提取模块的视频特征分析、数据预处理和特征提取3 个子部分对视频进行风格及特征分析，考察所选的特征是否合理，及每个特征因子与目标有无关系，以找到每一类视频区别于其他几类的最明显的特征，这属于分类目标下的视频内容分析范畴，从内容定性地分析出特定视频最有代表性的特征，便于后续特征提取的定量工作。

对视频内容进行分析后，需要对视频数据进行预处理，包括镜头分割、镜头切换事件类型分析、代表帧提取等，预处理之后就是最为关键的特征提取模块，这一阶段以预处理的输出结果即视频镜头、视频代表帧为输入，从中提取出具有代表性的各类视频特征，这一阶段的工作内容基于内容视频分析定性工作的定量转化，属于机器学习的范畴[14]。

在上述基础上，通过特征性能评估及优化模块对视频特征提取进行性能评估。特征评估的目的是分析经过筛选后的特征对分类效果能否提高，能否拉大不同类别之间的差别，监控训练是否朝着预期方向进行，未能朝着预期方向前进时，停掉训练、调整参数、重新训练。符合预期方向时，训练结束，然后将最终的模型储存起来[15]。

使用储存的模型实现运动视频内容的分类，具体流程如图5 所示。

图5 模型分类流程

利用图5 即可完成对运动视频内容的分类。

2 仿真实验

2.1 实验参数设计

设计实验所需的硬件部分，包括复杂可编程逻辑器件（CPLD）和加速传感器两部分。使用CPLD 负责接口的读写时序控制；加速传感器负责采集运动视频中人与物体的运动过程中的加速信息。实验板硬件结构如图6 所示。

图6 实验板硬件结构

设计几个简单的运动动作：水平左右跑动；水平前后跑动；水平画圆；竖直画圆。视频内物体转移的状态如图7 所示。

图7 转移状态

图7 中，S1～S6分别表示视频运动区域最左侧竖直平面中心点、最右侧竖直平面中心点、最前侧竖直平面中心点、最后侧竖直平面中心点、最上侧水平平面中心点、最下侧水平平面中心点。

将实验板硬件连接计算机与传感器，将图7 中的转移状态模拟到图8 中视频播放位置中，选择开始选项，将图7 设计的动作模拟为运动视频开始播放，在内容分析模块中可以观察到运动视频某帧的起始帧与结束帧，两个帧之间的差值表示传感器的加速信息。分别使用3 种分类方法分类运动视频内容，记录3 种方法可分类运动视频数据帧的帧长。

图8 视频内容分析页面

2.2 结果与分析

不断切换设计动作，记录统计页面显示的可分类运动数据帧的帧长结果，如图9 所示。

图9 三种分类方法帧长对比图

由图9 可以看出，使用3 种分类方法对运动视频分类时，传统基于神经网络的视频内容分类方法可分类的帧长范围在50 f/s 左右，传统的大数据视频分类方法可分类运动视频的帧长在75 f/s 左右，而基于大数据分析技术的运动视频内容分类方法可分类视频的帧长在90 f/s 左右，与两种传统运动视频分类方法相比，基于大数据分析技术的运动视频内容分类方法更适合帧长更长的运动视频。

3 结语

随着运动的普及与发展，参与各类运动的人越来越多，使用手机中的应用软件作为指导更是成为了一种新型的运动潮流。使用运动视频作为指导，帮助自主运动的人矫正运动姿势，这就为不同种类的运动视频提出了内容分类的要求。

但是传统的运动视频分类方法大多无法分类那些帧长较长的视频，并且无法获取感知特征信息，为此，本文设计了视频分类人机交互模型，使用模型训练加速度数据，得出一个储存型的模型，投入到实际的分类工作中。通过实验验证基于大数据分析技术的运动视频内容分类，将其与两种传统分类方法进行对比，结果表明，基于大数据分析技术的运动视频内容分类方法更适合于帧长更长的运动视频。