时间:2024-09-03
■ 文/过敏意
过敏意,上海交通大学电子信息与电气工程学院计算机系主任,博士生导师,致远讲席教授,国家杰出青年基金获得者。
对多源城市大数据进行高效地融合与集成,使大数据技术转化落地,真正推动产业发展。
从多源城市大数据中挖掘有用的知识,以提供监测预警、决策支持等服务,是智慧城市建设必不可少的技术支撑,已成为全球技术竞争的制高点和下一轮信息技术发展的焦点。如何让海量数据真正为人所用,真正推动产业发展,是目前大数据技术转化落地的瓶颈。多源城市大数据遭遇难以共享等诸多困难,在使用过程中常常面临数据低质、冗余和繁杂等问题,因此,需要对多源城市大数据进行高效地融合与集成,从而为城市大数据的计算和分析提供必要的支持。
在信息化推进和发展的过程中,很多城市的政府与公共服务部门积累了大量的数据资源,为大数据融合与集成技术的研究与发展奠定了丰富的数据基础。然而,城市大数据具有来源广泛、类型众多、结构复杂、动态实时且关联复杂等特点,难以实现数据的“聚、通、用”,在使用过程中遇到以下的困境:
●多源异构数据使得数据聚而不通;
●数据关系复杂,数据价值难以体现;
●海量动态数据持续到达,数据集成压力加剧;
●对数据缺乏理解,不能形成以数据为核心的数据应用解决方案。
高质量、高效率地解决前三个有关“聚、通”的问题,将为最后的多源城市大数据的“用”提供必要的技术支持。
多源城市大数据的异构性导致数据聚而不通。例如,城市旅游大数据来自多个不同的行业和领域,包括大量游客吃、住、行、消费能力信息,以及景区地理数据、人流情况、交通状况等信息。这些数据结构多样,由于采用了不同的表达模型(包括关系模型、键值对模型、树模型和图模型等),使得数据之间无法互通。如果通过多粒度的统一表达和优质萃取来研究多源城市大数据的融合方法,就可以打通多源大数据壁垒。
我们可以采用统一表达模型刻画并融合多源异构城市大数据,将行业数据与统一模型进行联系和映射,分析不同行业数据的特征,通过降维、冲突消解等技术,在统一模型中为它们选择合适的表达方式,从而形成可嵌套的多粒度统一表达模型。考虑到实际数据采集中的种种问题,比如可能存在大量冗余或者老旧数据,我们对采集的数据进行优质萃取,构建质量评估模型,建立低质数据的冗余清洗机制,从不断增长的海量信息中动态地选择出有用的数据源和数据段,制定动态选择策略。
城市大数据中的关键知识描述呈现多元化、深度化、层次化、知识关联复杂化、随时间演化等特点,为城市数据向城市知识的转化带来巨大困难。例如,城市旅游大数据的旅游知识具有层次化,包含地理位置、历史文化等多层次因素。针对上述问题,我们需要研究多源城市大数据的深度知识融合,比如针对城市大数据中常见的非结构化文本数据,研究非结构化文本数据的主题融合分析模型,设计“(动态)主题发现、主题代表提炼”算法,并结合深度学习等实现时序性多源异构城市大数据的融合预测。
为了有效利用多源城市大数据中的结构信息和语义信息,实现多层次交叉关联的深度融合,我们需要构建多层次知识图谱,将结构信息和语义信息无缝地融入多源数据的特征表示模型中,并研究知识和知识关联的进化,深入分析多层次知识图谱的演化性质,建立进化的多层次知识图谱。此外,上述融合分析需要对海量跨空间数据进行分布式检索,因此要针对应用需求研究出分布式索引技术,从而高效率、高质量地访问和查询数据对象。
城市大数据的海量动态特点,要求对数据进行协同处理,提供全方位的集成支持,从而从系统层面优化大数据平台,使其具有良好的时效性和扩展性。具体来说,需要研究基于数据流模型的多源大数据处理系统,通过构建数据流图,串联各个领域的数据资源,实现多源数据协同处理。
为了利用现有的大量移动设备、智能终端、传感设施产生的海量数据,我们需要研究建立云雾混合系统处理多源大数据,将智能手机、传感器等小型分布式的雾计算设备与中央式的云计算系统进行整合,实现协同增效,服务旅游、交通等行业。不同类型的应用对计算资源有着不同的要求,如面向社会的查询对延迟较为敏感,而知识发掘等应用对数据的吞吐量更为敏感,所以需要针对不同的应用特征进行异构大数据的计算优化。城市交通等行业应用由于实时性需要,对计算响应时间有较高要求,这与不断增长的庞大数据和复杂的网络产生矛盾。为此,我们需要设计基于软件定义的多目标网络资源调度,实现网络传输和数据计算的联合优化。
如何更高效地融合和集成多源异构、复杂高维的数据已经引起了研究人员极大的兴趣。通过跨行业、跨部门、跨应用的数据融合与分析,实现了深入挖掘公共数据的价值,从而形成数据驱动的商业模式创新的做法也屡见不鲜。利用实时文本、时空和多媒体等异构数据融合分析的结果推动公共服务的现代化已经在多个国家得到了实践。
总而言之,融合与集成是城市大数据发展的必由之路,对融合与集成技术的研究将推动我国在大数据应用基础理论的发展,促进城市大数据科学的发展和技术进步。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!