李军 于灵凡 田斌 李犇 李晔 康海燕

摘   要:随着基于数据流安全查询(网络流监控、股票数据在线分析、物联网中的分布式数据流查询、云计算下的数据流处理等)为背景的应用越来越普遍,学术界关于数据流上的安全分析、查询、管理已经成为当前数据库领域的一个很重要的研究热点。在数据流应用中,数据流的实时到达和元组的突变性使得数据流模型同传统数据库模型有本质上的区别。因此,许多基于传统数据库模型下的查询优化技术无法适应于数据流模型。以多媒体数据流安全检测和查询的视角,讨论的核心内容是数据流上的过滤器排序、数据流之间的连接计算以及自适应优化这三个子问题。文章针对以上子问题分别介绍了国际上关于数据流上自适应查询的一些主流研究思路和研究成果,并给出了下一步的研究思路。


Adaptive security query of streaming data: a survey

Li Jun  Yu Ling fan  Tian Bin   Li Ben   Li Ye   Kang Haiyan

(1.Department of information security, Beijing Information Science and Technology University, Beijing 100192;

2.China information security evaluation center, Beijing 100185;

3.Chaoyang Branch of Beijing Municipal Public Security Bureau , Beijing 100020;

4.China Mobile Corporation Hebei Branch, HebeiShijiazhuang 050035)

Abstract: With the application of data flow security query (network flow monitoring, online analysis of stock data, distributed data stream query in the Internet of Things, data stream processing under cloud computing, etc.), the application is more and more popular. Security analysis, query and management have become a very important research hotspot in the current database field. In data flow applications, the real-time arrival of data streams and the abruptness of tuples make the data flow model essentially different from traditional database models. Therefore, many query optimization techniques based on traditional database models cannot be adapted to the data flow model. From the perspective of multimedia data stream security detection and query, the core content of the discussion is the three sub-problems of filter sorting on the data stream, connection calculation between data streams and adaptive optimization. In view of the above sub-problems, some international research ideas and research results on adaptive query on data streams are introduced.

Key words: multimedia data Stream; adaptive query processing; filter ordering

1 引言

数据流作为数据库发展的一个重要分支,在20世纪末作为一种新型的应用的模式被提出,数据流具有广泛的应用前景,包括网络流监控、股票数据流分析、异常数据流挖掘和物联网分布式数据流协同处理等。因此,数据流环境下的查询[19, 1]、管理[3, 17]、过滤[1, 2]、挖掘[5, 6, 7]是当前数据库领域的研究热点。数据流模型是区别于以往数据库模型的新型数据应用模式。主要区别为:(1)数据流模型中数据是实时到达的,查询是相对“静止”的。相反,在数据库模型中,数据是相对“静止”的,查询是不断的变化;(2)数据流模型中数据一旦被处理以后即丢弃。相反,数据库模型中,查询一旦被处理以后即丢弃。数据流模型中数据到达的速度和规模具有不可预测性。


如图1所示,数据流系统通常注册大量“在线”的查询来完成数据流的实时查询处理。每个查询是多个过滤器(谓词)的“与”运算。每个过滤器的计算开销通常是比较昂贵的,特别是在日益普遍的多媒体数据流环境中。因此,数据流查询的目标就是通过计算尽可能少的过滤器来决定所有查询的结果。例如,假设在当前数据流上注册了四个查询,这些查询间共享的过滤器的数量是四个。对于当前数据流元组e,过滤器最优排序顺序A = F1;F2;F3;F4。也就是说顺序A的开销可能远远小于其他排序顺序如B = F2;F4;F1;F3。由于数据流上元组存在突变性,对于下一个数据流元组e,排序顺序B 的开销可能就优于排序顺序A。因此,在不断变化的数据流环境中,如何自适应的调整过滤器的排序顺序是关键问题。


XFilter[11]将不同用户对XML 文档的“偏好”注册到系统中,将这些“偏好”作为查询以XPath[12]语言的形式来表示,进而实现了基于内容的过滤系统。Xyleme[13]是一个和XFilter[11]很类似的基于内容的过滤系统,只是使用的规则描述语言不同而已。Tribeca[14]系统是真正意义上的数据流管理系统,用来完成对网络数据流的在线查询,只不过提供查询的能力非常有限。OpenCQ[15]和NiagaraCQ[16]系统都是监视Web数据流的数据流管理系统。支持侧重点不太相同:OpenCQ[15]重点关注查询处理的算法。NiagaraCQ[16]侧重于支持的查询数量规模。Telegraph[19, 18, 20, 50]是比较有特点的数据流管理系统,具有较好的扩展性和移植性。其最大的特点是设计了一种称为Eddy[19]的机制,通过这个机制来完成对每个元组的自适应路由。Madden[20]重点讨论了在传感器网络环境中Telegraph[19]系统的查询执行策略。Madden[20]主要讨论了在Telegraph系统中如何自适应的处理多查询。Aurora[21]系统是侧重于网络管理应用的数据流管理系统,Aurora的核心是由操作符组成的触发器网络。每个触发器是由一个或者多个操作符组成的有向无环图。

对于每个使用了Aurora[21]系统的数据流管理应用中,管理员只需要创建一个或者多个触发器,并将这些触发器添加到Aurora触发器网络中。Aurora在执行计划编译时和运行时都进行了优化,Aurara在系统运行时通过检测资源负载情况结合注册服务的QoS进行“甩负荷”。STREAM[3]是一种基于关系模型的数据流管理系统。提出了一种数据流查询语言CQL[38]。所有操作算子和算子的优化都是在同一个进程中,调度算法按照时间片进行简单切割。STREAM 系统对查询的优化也非常有限,只是对单查询进行了选择下推,对多查询只是在数据共享方面做了一些优化工作。STREAM 基于关系模型进行数据流建模,给出了数据流环境下查询的较完备的形式化定义。另外还有其他一些数据流项目,例如COUGAR[22]是Cornell大学的一个传感器网络环境中的数据库项目,支持一种面向对象的查询语言,将传感器产生的数据定义为一个抽象数据类型,这样传感器输出的就是一个时间序列的数据流。StatStream[23]是纽约大学的跨多个数据流计算统计值的实时数据流统计系统。



(2)在很多数据流应用场景中,由于数据流之间的相关性越来越大,不同数据流之间通过各种属性(如网络流中四元组、时间戳、模态内容相似性)进行关联,这样就需要跨多个数据流进行融合过滤、分析、查询、管理,将这个问题称为多数据流融合计算。多数据流融合计算问题的核心是设计高效的多数据流之间的连接算子(Join operator)。多数据流的连接算子的设计是数据流领域的热点问题之一。



2 共享过滤器排序


4 查询优化

查询优化的过程就是自适应查询处理的过程。在传统的数据库领域,查询的处理策略是:先计划,再执行。也就是,查询引擎首先决策出一个开销最小的查询执行计划,然后查询执行器来完成计划的执行。鉴于数据流查询中,数据流在速度和内容上具有不可预测性。因此,数据元组突变性可能会使得优化本次选择的执行计划在下一个数据元组的查询中会引起性能骤降[50, 37],这样就使得自适应查询处理在数据流领域被广泛关注[38]。自适应查询的主要研究动机是:




自适应的查询处理可以避免因为死板的查询计划带来的性能抖动,使得数据流系统的查询性能趋于稳定[45, 37]。在自适应的查询处理模型中,查询的执行被严格的划分为优化阶段和执行阶段。这两个阶段相互独立。这样可以使得查询的处理过程中可以及时的纠正因为优化策略带来的性能颠簸。自适应查询处理在过去几年中的进展情况为:










(3)基于持续查询的系统:以CAPE[17]、NiagaraCQ[40]、StreaMon[49]作为这个分支的经典代表,是数据流领域查询处理的主要模型。重点考虑大量查询在线注册的情况下,将查询和数据流元组的变化常态化,重点关注优化器自适应的调整操作算子的顺序来完成查询的执行过程。自适应查询处理的流程如图 7 所示。


5 结束语








李军(1983-),男,汉族, 山东滕州人,北京邮电大学,博士, 高级工程师,北京信息科技大学,教师;主要研究方向和关注领域:网络信息安全、数据挖掘。







