基于内容的流媒体视频检索技术

时间：2024-05-20

杨春蓉

（新余学院数学与计算机科学学院江西新余 338004）

基于内容的视频检索从视频中进行是比较困难的，因此，通过对视频的颜色、物体形状、纹理、物体运动和轮廓等特征进行分析，再借助其他的先进成熟技术来进行。

1 视频镜头的检测

镜头检测是基于内容视频检索的第一步，视频检索的有效性在一定程度上由镜头分割的准确度决定。因此，在基于内容的视频检索中，镜头边界检测是关键的技术。确定从镜头到镜头的转换位置是镜头检测的关键。镜头间的转变主要包括两种类型：突变和渐变。突变是指没有借助视频编辑工具的情况下从一个镜头直接转换为下一个镜头，没有时间的延迟。渐变是指由前一个镜头慢慢转换为下一个镜头时加入了一些空间或时间上的编辑效果，包括淡出淡入、溶解、擦变等，在镜头转换的过程中有一个持续多帧的变化过程。其实渐变也可称为软切换，其实现是要借助视频编辑工具中的功能。转换方式不同，一般情况下，检测算法也不同。其中最为成熟的就是突变检测的算法，而渐变检测算法都需要先验假设的，还需进一步完善相关技术。现在，常用镜头检测方法主要有基于压缩特征的检测法、数据驱动和模型驱动法。

1.1 基于压缩域特征的检测方法

近年来出现了一种新的镜头检测算法，这种算法被广泛应用，即基于压缩域特征的检测。目前对压缩域的研究基本上在MPEG压缩域上。大多都是利用DCT系数、运动补偿宏块等信息来对压缩内对镜头突变进行检测。日本的Yasuyuki进行切换检测主要是利用Ⅰ帧的DC序列，在切换镜头时，一般都具有很大的色度变化，此时通过对两个Ⅰ帧DC图的色度相似度来进行，由此才能对切换点进行确定；另一种方法是切变的检测，主要是利用进行运动补偿的宏块的数量来进行。其实在压缩域内对镜头渐变检测的方法也是比较多的，Yeo等检测闪光、淡入和淡出可借助从MPEG压缩码流中提取出的DC系数来进行，同时此方法也可以对叠化和切变进行区分。B帧的预测方法的获得可以利用MPEG压缩码流中宏块种类的信息来进行，检测到各帧场景发生变化的区域。通过分析这些变化区域，可以将比较复杂的擦除转换检测出来，还可以将其擦除的种类确定下来。

1.2 数据驱动法

数据驱动法分割镜头主要是根据镜头在发生转换时其视频数据所发生的变化来进行。由于同一镜头的相邻两帧间的特征差值总会在某一阈值内活动，因此可以根据这点来判断是否为同一个镜头。如果相邻两帧间的特征差值超过了这个阈值，那么说明这两个镜头不是同一种。寻找镜头边界采用这种方法来进行，虽然对突变的镜头效果较好，但对渐变的镜头效果不是很好。

1.3 模型驱动法

模型驱动法首先研究视频镜头间切换的生成过程，从中寻找一些可用于分割处理的约束关系，再根据这些对各种镜头切换建立对应的数学模型，然后检测镜头切换，并且要自顶向下来进行。只要能够建立准确的模型，那么检测镜头往往能够得到较好的效果。但是这种方式的建模过程是非常复杂，它需要对每种切换类型建立模型。

2 提取关键帧

在镜头分割后，一般都需要进行镜头关键帧的提取工作，这样才能提供给用户让其进行浏览。关键帧反映的是镜头的主要内容，是从原始视频中提取的用于描述一个镜头的一幅或若干幅关键图像。一方面，关键帧集合对整个视频内容的快速浏览进行着支持，另一方面，关键帧可以实现对视频内容的检索，其主要是通过提取每个关键帧的视觉特征并建立索引。代表帧的选取能够将镜头中的主要事件反映出来，因此在描述时应尽可能完全准确，而且其数据量应尽量小，管理起来比较方便，不宜太复杂的计算。提取镜头固定位置上的帧可作为最简单的关键帧。这种提取关键帧的方法的运算量较小，比较适合用于内容活动性小的镜头，其缺点就是不能灵活使用，它对镜头内容不能有效地反映出来。平均法是比较经典的关键帧提取方法。平均法是通过计算整个镜头，将具有一定平均意义的视频帧作为镜头关键帧。一般情况，平均法分为两种，一种是帧平均法，另一种是直方图平均法。（1）帧平均法。该方法就是将一个镜头中所有帧的某个目标位置上的像素值取出，并计算其平均值，与平均值的帧最相近的像素值作为关键帧。这种方法的难点在于选定目标位置。由于镜头中任意两相邻帧的差异所体现的位置并不是固定的，所以，帧平均法所选取的关键帧就不是非常准确了。（2）直方图平均法。该方法是将镜头中所有帧的统计直方图取平均，其所选取的关键帧就是与该平均直方图最接近的帧。视频中的图像可以选择图像处理中常用的低级视觉特征，这是由于视频中的帧已经由三维的视频流转换为二维的图像。选择颜色特征是诸多可视特征中较直接且有效的方法。在各颜色特征中，颜色直方图是最常用的，因为它能够将图像帧颜色的统计分布和基本色调反映出来。这两种方法不能将运动变化的镜头的全部内容反映出来。

选取关键帧最有效的方法就是随着时间的变化通过对视频视觉内容进行分析来确定所需关键帧的数目，抽取关键帧并按一定的规则来进行。在检测到一个镜头后，首先要先确定其状态，如果是平稳镜头，取值较稳定；如果镜头是大运动变化的，取值差别是非常大的。在选取关键帧时可以根据镜头的这些特征来进行：（1）针对平稳镜头而言，可以选取其中的一个帧作为关键帧；（2）针对大运动的镜头，其关键帧就是变化前和变化后的两帧；（3）镜头内变化较多，需要选取多个代表帧，然后根据帧之间的显著变化来进行选择。

3 基于内容的相似性检索

相似性检索是当前视频检索的主要方式。相似性检索要求用户提供比较感兴趣的视频片段，将样本片段和视频库中的其他片段进行相似性对比，然后返回检索结果，这就是相似性检索的过程。视频相似性检索主要围绕如何提取反映视频内容的特征和如何量度特征间的相似性这两个问题进行解决。（1）特征提取。在特征提取方面，目前主要从传统的图像检索技术直接或者间接地继承过来视频检索技术。在图像检索中，颜色、纹理和物体形状是普遍使用的底层特征，也是视频检索中非常重要的特征。（2）相似性度量。通过计算查询和候选图像间在视觉特征上的相似度来进行基于内容的图像检索。因此对于检索效果而言，定义一个合适的视觉特征相似度量方法对其的影响是非常大的。一般来说，视觉特征都可以用向量的形式来表示，所以，采用向量空间模型 (vectorspacemodel)是视频检索时常用的一种相似性度量方法，也就是将视觉特征看作是向量空间中的点，对图像特征间的相似度的衡量主要通过计算两个点之间的接近程度来进行。

4 视频的语义分析

一般情况下，用户希望检索和浏览视频在高层语义中进行，而实际上大多数的检索系统都是在低级特征上来提取。一直以来，视频语义提取是视频分析中的难点和重点，这是因为视频的结构复杂、语义信息丰富并且多歧义导致。随着计算机技术的不断更新，视频语义信息的提取逐渐成为现代视频检索的关键。传统的视频检索方式是需要人主动地寻找自己所需的视频内容，是一种被动式的信息获取方式。此时低层视频特征和高层内容描述间存在较大的差异就是一个重要问题，视频语义分析的核心问题就是如何在两者间架设联系的桥梁。

视频语义分析可分为通用语义分析和特定语义分析两种。通用语义分析面向不受限的视频目标，通常在特定视频语义定义条件下进行研究。提取的事件表达语义结构但不能提供真正的语义概念是这种方法的最根本的局限性。由于语义信息非常庞大，通用的视频语义分析无法将先验知识导入其中，因此识别的语义往往是比较简单的。但实际上，大多数的工作都是哎特定视频类型中开展，也就是特定语义分析。由于视频内容被预先确定了，视频信息才能够被预先地分析和特定地建模。在这种情况下，识别系统中就能够导入相关领域的先验知识，并能以模型的方式来进行，所以，特定语义分析所获得的语义信息一般都是比较准确和充分的。目前的特定语义分析主要局限在新闻视频、电影视频、体育视频和监视视频中，这主要是由于视频语义的多义性和复杂性决定。

以上对基于内容的流媒体视频检索的关键技术进行了分析，这些技术是基于内容的流媒体视频检索系统设计和实现不可或缺的技术。基于内容的流媒体视频检索系统设计和实现所涉及的范围较广，其是一个较为复杂的系统工程，本文所提出的这些关键技术虽然是不可或缺的，但是也不是全部，因此，对基于内容的流媒视频检索系统还必须进行更深入的研究和探索。

［1］吴杰.P2P流媒体内容分发与服务关键技术研究[D].复旦大学,2008.

［2］尹浩,林闯,文浩,陈治佳,吴大鹏.大规模流媒体应用中关键技术的研究[J].计算机学报,2008(05).

［3］陈荣华.实时流媒体内容分发系统优化研究[D].复旦大学,2010(12).

［4］智英建.基于新型分布式视频点播架构的流媒体调度技术研究[D].解放军信息工程大学,2008.