物联数据建模分析框架探讨

时间：2024-08-31

徐超，林友勇，李少利

（中电海康集团研究院，浙江杭州 310012）

0 引言

本文从物联基础设施产生的数据出发，研究物联数据的分类和建模形式，形成了以物模型、事件模型、感知数据模型为核心的物联数据建模分析框架。本文还着重分析了物联感知数值模型的几种细分类型，提出了其相关的分析、挖掘方法，并讨论了序列模型以及时序图模型在文本、语音、视频等感知数据类型上的拓展应用。总的来说，本文的主要贡献包括如下几点：

第一，梳理了物联基础设施的数据分类体系，提出了一套较为完整的物联数据建模及分析框架；

第二，着重对数值型物联感知数据建模进行了分析，并讨论了这些模型在文本、语音、视频等感知数据结构上的拓展应用。

1 物联数据分类

物联网的消息模型由设备协议模型构建，主要实现将实体世界的设备数字化，并在云端构建该设备的数据模型。设备协议模型主要描述感知设备是什么、能做什么、可以提供什么样的感知数据、能够产生的事件信息等。因此，根据设备协议的承载内容，概括为设备属性、感知（即报文数据）、状态及事件这四种消息模型，以用于描述感知设备的属性、报文数据及控制指令的结构信息。针对上述4种物联网消息模型，我们可以把物联基础设施中涉及到的物联数据归纳为如下几种：

（1）物体数据：即设备本身的数据，也就是描述设备的属性、状态、能力等的数据；

（2）感知数据：即设备产生的数据，也就是由设备感知到的数据，也称为报文数据，一般可以分为数值、图片、视频、语音、文本（人、物交互产生）等几种类型；

（3）事件数据：即控制指令的结构化信息数据。

物体数据涉及到物联设施的标准化、规范化问题，一般是按照国内外的物体语义标准进行设计，小企业等都很难制定相关的标准以建立自己的标准化生态。而事件数据是基于本体数据形成的一种物体能力控制的指令信息，其处理过程涉及到事件顺序的推理和因果分析，目前缺乏做得比较深入的企业，一般是通过一些规则引擎来实现数据流转和简单的业务联动。感知数据是目前我们关注最多的一种，因为它比较容易处理并且更容易获取直接的数据收益，一般所说的物联网数据处理基本都是指的这种数据类型。这些数据的挖掘分析一般包括获取、清理、查询、压缩、存储、分析、预测等步骤，业界也在逐步利用机器学习和人工智能等技术来处理这些数据，以获取更智能化的效果。目前的问题是，没有一个有效的框架能融合上述三种数据类型，实现真正的由物联到数联，再到智联的过程。因此，本文提出了一个统一的物联数据模型建模框架，并对其中的感知数据模块进行了详细分析。

2 物联数据建模框架

基于上节提出的物体、感知、事件三种数据类型，提出一个统一的物联语义知识库模型框架，并对框架的每个模型进行详细的说明。

图1 物联数据建模分析框架模块图

本框架主要由6个模块组成，分别是物模型、事件模型、感知数据模型、业务知识库模型、互联网知识库模型和物联语义知识库模型；针对感知数据模型，又分为单维时序模型、多维时序模型以及时序网络模型。其中，物模型、事件模型和感知数据模型是不可或缺的核心模块；业务知识库模型和互联网知识库模型是对整个模型的补充；物联语义知识库模型是以上几个模型的融合，是一个大型的知识图谱语义模型。在一个由“云-边-端”构成的物联网系统架构中，一般来说，物模型、事件模型以及实时感知数据模型是部署在边缘侧，为实时的数据处理提供推理分析，而历史感知数据模型和物联语义知识库模型一般部署在云端，负责离线数据的融合、针对历史数据的预测等。下面详细介绍各个模块。

2.1 物模型

物模型基于语义物联网的标准对物体进行描述，建立物体的本体模型，并提供标准化的物体解析体系以及物体集成管理方法，核心内容包括如下几个方面：

（1）物联本体建模：解决物体是什么的问题

对物联基础设施及物联基础设施产生的数据进行标准化归纳、整理，形成一套完整的数据目录（元数据），在此基础上抽象出一套适合物联基础设施服务场景的本体。

（2）物联解析体系：解决物体接入、发现的问题

物体发现主要是对新接入物体的物名、能力、位置等核心要素进行解析，以达到物体识别的功能，只有物联知识库识别到物体，才能正确地使用物体的能力，具体包括物名标识解析、能力标识解析、位置标识解析等。

（3）物体使能体系：解决物体怎么用的问题

负责物体的管理与集成，对外提供统一接口的能力服务，具体包括物体接入管理、能力管理、能力集成管理等。

2.2 事件模型

事件模型是基于物体的能力体系，为数据的流转、逻辑因果推理提供描述方法及解析等。物体与其他交互物（包括人、物等）发生一定动作时会产生一个基于主体、时间、位置等的事件，事件的发生存在一定的顺序关系，在物模型的基础上，事件之间建立相应的事理图谱（知识图谱的一种类型），基于事理图谱也可以进行推理和分析，具体主要完成如下几块的内容：

第一，数据流转：针对环境状态和物体能力，对获取的数据进行合理的分配；

第二，因果推理：针对异常事件或动作，进行有效的因果推理，获取合理的分析结果。

2.3 感知数据模型

感知数据模型主要是针对感知设备产生的数据建立分析、预测等模型。物联感知数据具有时空性、关联性、质量差、海量和非结构性等特点。空间时效性是物联感知数据的固有属性，所有原始数据在缺省状态下都具有时间、空间和设备戳，即表示在特定时间、地点在特定设备上收集的。针对这些数据特点，下面主要针对数值型的感知数据进行分类：

（1）单传感器节点，单维时序模型

单传感器节点获取单个维度的感知数据，并且感知数据随着时间演变，传统的时序数据分析都是针对单维属性进行的，也就是只考虑历史数据的影响。

图2 单传感器节点单维时序模型

（2）单感知数据节点，多维时序模型

单传感器节点同时获取多个维度的感知数据，并且这些维度存在一定的相关性，感知数据也随着时间演变，可以看做是多维或多元时间序列。

图3 单感知数据节点多维时序模型

（3）多感知数据节点时序图模型

大量的传感器被部署在各个地方连续地、协同地监测周围的环境，如空气质量。这些检测器生成很多时空序列数据，之间有着空间相关性。预测这些时空数据很有挑战，因为预测受很多因素影响，比如动态的时空关联和其他因素。传感器的读数取决于历史的记录数据和邻近传感器的读数，而这些影响的权重是随着位置和时间不断变化的。因此，在物联网应用建模时，应当充分考虑并表达物理个体之间的关系特别是直接的关系。各个物理个体除以上论述的实时收集的时空数据之外，也应充分表达它们之间的连结关系。在一些应用中，这些连结关系也会随着时空的转换而发生变化（例如智能交通中车辆之间的关系）。模型本身应有充分的能力来表达直接关系，以方便推理间接关系。

因此，针对多传感器节点获取的感知数据（可以是上述的单维或多维情况）可以构成时空网络，是指同一时刻多个多传感器节点相互影响，构成了一个静态图结构，而不同时刻的图数据结构，就构成了时序图，时序图显示了各感知数据间相互影响、动态演变的过程。

图4 多感知数据节点时序图模型

2.4 物联语义知识库模型

在物联应用中，各个物理对象不是独立存在的，它们之间存在复杂多样的关联。其中一些关联是直接的，另一些是间接隐含的。例如：在智能电网中，不同用电户在物理电网上的相对位置会影响他们之间的关系和关联程度；在交通运输中，路网上游、中游和下游的车流量是与路网的网络结构以及道路的距离长度紧密相关的；在环境监测中，不同污染源的相对位置和相对独立性，都会对监测系统的设计与实现带来影响。以路网中追捕逃犯车辆为例，路网中的各种传感器（物模型）获取每个感知节点的人流、车流情况，并对未来某个时间段利用时序模型进行预测（时序网络模型：如图5路网中的上下游在人流、车流的感知上存在一定的滞后性，也就是相关性），路网中的路卡设备可以根据预测的结果实时对路网进行截断（事件模型），同时根据预测结果合理分配警力资源的数量、所需占据的有利位置（业务知识库模型）等。

这些物联应用都是建立在数联的基础之上，因此，在物模型、事件模型、时序模型、时序图模型的基础上，还需要在云端建立一个庞大的知识库模型。该知识库模型融合多源异构、多模态的数据，并对这些数据进行统一的表示学习，在某个相空间中建立统一的语义表示模型。通过打通物模型图谱、事理图谱、时序网络图谱、业务数据图谱、互联网图谱，融合各图谱之间的语义知识，获得对各种数据的进一步认识，挖掘其价值。

图5 路网中的逃犯追捕场景简单演示

3 感知数据分析模型及拓展

从2.3可知，数值型感知数据可以建模为单元时间序列、多元时间序列以及时序图，其中所涉及到的图网络模型、序列模型、时序图模型也可以在其他类型的感知数据中得到拓展应用。其中，序列模型一般解决数值、语音、文本等数据问题，图模型或时序图模型解决图片、视频等数据问题，但还得根据具体的数据建模具体分析。下面主要针对时序模型以及时序图模型在预测上的方法进行详细介绍。

3.1 单维时间序列方法

指仅根据历史时间序列的趋势发展来预测未来时间序列的趋势发展的方法，此类方法通过建立适当的数学模型拟合历史时间趋势曲线，根据所建模型预测未来时间序列的趋势曲线，常见模型包括ARIMA、VAR、ARCH等[5-7]。单维时间序列方法所依赖的数据较简单，只需要历史时间序列趋势曲线便可构建模型，因此可适用于多种场景，模型较为通用。但是，ARIMA不能对非线性关系进行建模，也不能对序列以外的其他因素进行建模，VAR虽然属于多维时间序列模型，但也不能对非线性进行建模，而且它们都不能对多个节点序列之间的关系进行建模。

3.2 多维时间序列方法

为提高预测的精度，机器学习算法被引入时序预测，此类方法根据具体的应用场景，选取可能影响预测值的特征，将这些特征引入模型，应用机器学习的分类/回归模型来进行预测。为提取特征，机器学习方法需要多个维度的数据，预测精度较高，建立的模型较为复杂，但是模型往往不够通用，针对不同应用场景需要重新提取特征，建立模型。现实预测中，机器学习方法往往结合传统单维时序预测法来运用。基于机器学习的时间预测方法一般适用于多维时间序列分析，如 SVR[8]等，而像RNN、LSTM、GRU[9-11]等序列分析方法，也可以用于单维时间序列分析。

3.3 时序图分析方法

为了考虑节点之间的网络关系，考虑各个节点的关系影响，时序图方法也被用来解决该类问题。时序图模型是指基于时间快照的图模型，即每个时刻所有节点的关系都是一个固定的静态图，或者干脆只考虑其简接关系即隐含的、可学习的关系。这些模型与上面的多元时间序列分析方法不同，需要通过模型直接学习空间关系而不是手动抽取结构特征，所以这种方法需要结合空间卷积或图结构的学习方法，比如卷积网络（CNN）、图神经网络（GCN）等。随着图神经网络的爆火，目前已经在车流预测上取得了一定的效果，涌现了STGCN、DCRNN[12-13]等时空序列模型。

物联感知数据不仅包括传感器获得的数值数据，还包括图片、视频、语音、文本（人、物交互产生）等几种类型。如果我们对本文提到的复杂系统以及内部的数据节点进行合理的映射，就基本可以对上述所有数据进行建模。例如，对于单维或多维序列模型，可以解决数值、语音、文本等数据建模、预测问题，例如车流/人流预测、文本翻译等，对于时序图模型可以解决图片、视频等数据建模、预测问题，例如物体识别、场景识别、人物姿态识别等，并且时序图建模还可以应用于复杂物理系统的状态预测和推理，例如自动驾驶、司机动作理解等。

4 结语

近年来，物联数据分析已成为数据挖掘领域的研究热点，在国内外获得了广泛关注，本文从物联基础设施产生的数据种类出发，建立了基于物模型、事件模型、感知数据模型为核心的物联数据建模分析框架，并着重分析了数值型感知数据的分析方法。清晰定义的建模理论框架将会给该研究领域带来理论上的指导，一方面可更好地理解物联数据种类及其具备的特点，另一方面也有助于物联数据研究者提出更有效的分析技术。