当前位置:首页 期刊杂志

基于大数据的特大突发事故失联人员数量快速估计及对策研究

时间:2024-05-07

周晓津++阮晓波++陈翠兰

[摘 要]特大突发事故区域内活跃移动用户数量的变动为快速估计失联人员的数量提供了条件。迅速恢复事故区域通信是救援和快速估计失联人员数量的关键。在兼顾个人隐私保护和城市精细化管理的条件下,政府应推动国企和BAT等私营企业建立移动实时统计信息系统,并及时向公共智库、科研人员和社会公众公布相关统计数据,从而让智库研究成果更好地服务社会公众。

[关键词]特大突发事故;失联人员数量快速估计;人口大数据;危机管理

[中图分类号]C939 [文献标识码]A [文章编号]1671-8372(2017)01-0069-04

2015年8月12日晚11时30分左右,天津市滨海新区发生大规模爆炸事故,现场火光冲天,爆炸冲击数十公里范围内均有震感,居民抬头可见蘑菇云。8.12天津爆炸事故发生后,上至中央高层下至普通百姓,都渴望得到准确的失联人员数量,但无论是官方或第三方任何机构都无法在短期内给出令公众信服的答案。在可信数据公布以前,各种网络大致估计乃至谣言快速传播。

2015年12月20日11时42分,深圳市光明新区凤凰社区恒泰裕工业园发生山体滑坡。附近西气东输管道发生爆炸,导致煤气站爆炸,20栋厂房倒塌,多人被困。光明新区滑坡灾害中失联人员的数量虽然早有出现,但变动频繁。截至20日23时,事故中失联人员总数上升到59名;截至12月21日6时,事故中失联人员总数已经上升至91人;截至12月21日18时,失联人数下降为85人;截至12月22日14时30分,事故中失联人员总数变动为76人。由于失联人员的数量波动极大,难以被社会公众信服。

本文探讨利用大数据快速估计特大事故失联人员数量,从而为领导决策及时提供可参考依据,亦为社会公众提供可信服的数据。

一、失联人员数量快速估计的大数据来源

显然,特大突发事故的失联人员数量无法依靠传统的人口统计数据获得。首先,人口普查数据每五年才进行一次,即使在人口普查的当年,利用该数据系统依然无法获得特大突发事故失联人员数量,因为该系统无法实时显示活动人口的变动情况。其次,户籍管理中的人口数据缺乏实时更新功能,另一个重要缺陷是无法应对我国外来人口或流动人口频繁变动的事实。再次,特定人群数据对突发事故中的人员失联数量也无济于事,婚姻登记、出生登记和学籍登记需要对全部人口进行联络和处理,工作量极大;其他实名登记系统如医疗保障、民航与铁路售票、劳动保障、银行和住宅产权等信息系统则与事故区域人口重合度低,对事故失联人员数量的估计作用极为有限。

目前可利用两大类型的大数据进行特大突发事故失联人员数量的估计。第一类是移动通信大数据,主要是用户所在基站位置数据及移动网络周期性位置更新数据。以天津“8·12”爆炸事故为例,通过对爆炸冲击半径区域内的移动用户(活动用户)数量突变进行分析即可大致确定失联人员数量的最大值;相对而言,深圳“12·20”山体滑坡事故所涉及的区域更窄,同样可以依据事故区域内的移动用户数量突变和用户行為突变来确定失联人员数量的最大值。第二类是社交网络大数据。如腾讯QQ登录、微信登录、百度搜索等,此类人群覆盖率低于移动通信覆盖率,因而可以确定失联人员数量的最小值。

二、基于移动通信大数据的失联人员数量估计

2013年9月1日开始,我国在全国范围内对新增固定电话、移动电话(含无线上网卡)用户实施真实身份信息登记,严格实行“先登记,后服务;不登记,不开通服务”①。2015年1月,工信部、公安部、国家工商总局联合印发《电话“黑卡”治理专项行动工作方案》,要求自2015年1月1日至12月31日,在全国范围联合开展电话“黑卡”治理专项行动,重拳整治“黑卡”。其中包括,2015年9月1日起,电信企业要求各类实体营销渠道全面配备二代身份证识别设备,在为用户办理电话入网手续时,必须使用二代身份证识别设备核验用户本人的居民身份证件,并通过系统自动录入用户身份信息;不得委托未配备二代身份证识别设备的社会营销渠道办理电话用户入网手续,多项实名制落实措施被业内称为“史上最严”②。就本文而言,是否实名对特大突发事故的失联人员数量估计并没有太大的影响。在非实名制情况下,失联人员数量的确认需要人均手机拥有量数据加以调整,而在实名制条件下,人均手机拥有量无须调查即可从系统中得到。

在进行特大事故失联人员数量估计前,有一个问题特别值得重视。天津“8·12”爆炸事故中,移动通信基站有可能遭受严重破坏,从而导致活动用户突然失联的数量大为增加。在这种情况下,恢复基站通信是第一要务,然后是启动系统灾备并进行数据恢复。若通信恢复时间过长,则所估计失联人员数量会有较大的误差。初步的失联人员数量估计方法如图1所示。以深圳“12·20”山体滑坡事故为例,在移动通信基站完好的情况下,由于手机对应的人员通常与手机处于共生体状态,当事故突然发生后,手机和人员共埋藏在地下而与外部基站失去联络,表现在手机用户数量方面则会有一个明显的下降,犹如脉冲低谷出现。若事故突发后所在区域移动基站功能正常,则此时可估算失联人数:

从深圳“12·20”山体滑坡事故情形来看,事故区域通信功能正常,可直接利用式(1)来估计事故失联人员数量。而在天津“8·12”爆炸事故中,事故区域内移动基站必然会受到很大的损害,在通信恢复正常前的一段时间内,通信期间手机用户有一个自然的增量过程,因此事故失联人数将少于式(1)所估计的人数:

三、基于手机用户行为的失联人员数量估计精度调整

前述简要的特大突发事故失联人员数量估算方法的优点是简便快捷,系统甚至可以直接给出并报警。特别是在像天津和深圳等这样的城市化程度相当高的地区,交通条件、救援能力和灾救响应都非常迅速,一旦事故突发,可以迅速启用备用移动通信基站恢复通信。

在手机非实名制的条件下,平均每个人拥有的手机数量如今应该大于1,因此需要对Nmissing(失联人数)做出较大的调整。在人口流入地区,人均手机拥有量远高于人口流出地区。以深圳为例,由于深圳外来人口占有相当大的比例,且多为青壮年人口,因此其人均手机拥有量为1.3~1.5部,调整时应将Nmissing除以人均手机拥有量。

首先,与已有的手机用户行为大数据分析对比。无须将大量数据导入SQL数据库中,也无须对数据进行过滤与清洗等处理,只需将事故突发后非因基站受损而中断联络的手机用户进行分析,主要分析其通话行为及时空特性。在天津“8·12”爆炸事故中,手机用户通话行为大数据包括海滨新区内电信通话及网络数据,通话数据包含号码、通话时间、通话时长、基站位置等信息;网络数据包含上网时间、上网流量、地理位置等信息。深圳“12·20”山体滑坡事故中,手机用户通话行为大数据包括光明新区内电信通话及网络数据。为减少数据处理量,可直接将号码、通话时间、通话时长、基站位置和上网时间、上网流量、地理位置等(见表1)事故前的数据导入到SQL 数据库中。通过比对事故前后的电话号码数量即可得到式(1)所需要的数据,并将失联号码数据导入新建的数据库文件中。

其次,失联概率调整。Barabási 等(2005)在《Nature》杂志上发表的论文中指出,同一用户发送两封邮件的间隔时间并非服从人们过去认为的指数分布,而是服从幂函数分布,从而开创了人类行为动力学的先河。随着手机的普及,不少文献将收集到的手机用户的数据用于人类行为动力学研究,结果发现手机用户的通话活动均有重尾分布特性,而不是之前人们所认为的服从泊松分布。

上述失联号码数据库中不同号码此前的通信时间间隔分布,可以用幂函数(为失联前通话时间间隔)进行拟合,再对比通信恢复后来自外部呼叫、应答的频率和概率,从而进一步断定失联人员伤亡的可能性,从而对整个失联人员数量进行调整。近年来的研究还发现,从时间上来说,人类行为的发生不是均匀的,可能在短期频繁发生而长时间却不发生。当突发事故发生之后,失联人员被叫情况在短期内将会频繁发生,而失联人员的应答行为则与其失联前会有很大的差别。研究发现,从空间上来说,人们的空间出行回转半径具有极端缓慢增长的特性,同时人们的空间出行具有预测性等。因此可以通过分析失联人员事故突发前后的空间路径进一步判断失联人员数量。

四、大数据时代特大突发事故管理的对策与建议

在城市的快速发展和急剧变革中,医疗、教育、住房等诸多矛盾和问题不可避免地积累和产生,城市化、工业化带来了人口的大量集聚,各种潜在的灾难和风险往往难以预料和控制,每一起特大突发事件往往在出乎意料的时间和空间节点发生,为人们应对灾难提出严峻的考验。一些特种行业如核工业、化工、电力、天然气煤气、石油石化、生物制药等高危行业,尤其存在着发生灾害的潜在风险,需要进行预防。因此,构建基于移动通信和社交网络的人口信息大数据应用分析体系,就可以在事件发生后的最短时间内,掌握区域内人口流动数据状态,厘清事发现场人员结构,为后续的救灾防灾活动提供有力的信息支撑。同时,建立人口流动的大数据体系,对于危机管控、犯罪预防、资源调度等事关经济发展和社会稳定的社会治理方面具有很强的实际应用价值。因此,针对大数据时代突发事故管理,本文提出如下四個方面的对策与建议。

(一)加快非泄密数据向社会开放的步伐

大数据环境下的国家治理现代化和城市管理精细化离不开广泛的数据共享和准确的数据分析。现代公民对政府管理提出了更高的要求,在特大突发事故的应急管理过程中,政府过去所依赖的借用公关手段进行危机处理的方式、方法和手段,如控制事态、引导舆论、维持关系、重塑形象等,需要全面的变革与创新。在网络媒介人人可接触而且信息迅速传播的情况下,依靠传统的“管制论”和“封堵论”来应对网络舆论危机将越来越困难,应该依靠准确的大数据分析,本着实事求是的精神,与社会公众进行广泛而平等的沟通,否则可能会引发更严重的社会信任危机。要尽可能地将与人口有关的大数据转换成信息数据化、数据结构化、结构标准化的数据系列;国家应尽快出台移动通信数据向公共智库、研究人员和社会公众开放的法律制度,特别是加快可叠加的非涉密统计数据的开放;重视应急部门协作、应急数据的社会共享和再利用,避免特大突发事故因网络而发酵的大范围危机事件。

(二)推动大型企业参与国家人口基础信息库建设

虽然国家机关和地方政府拥有最全面的人口信息,但这些信息并非严格意义上的大数据,只能称之为大数据化的人口信息,更多真正的大数据主要由国有企业和少数私营公司掌握。人口大数据是其他大数据的基础和核心,但严格说来,政府数据充其量只是大数据化的数据而非真正意义上的大数据,仅仅依靠政府数据进行跨部门共享校核,所得到的国家人口基础信息库只能是大数据化的数据,离真正意义上的大数据生成动态化、实时化、大容量化还有相当大的差距。因此,国家人口基础信息库的信息生成依旧离不开企业数据,特别离不开对移动通信、交通和社交网络等大数据的分析。无论是商业类国有企业还是公益类国有企业,抑或是以BAT为主导的私营企业,向公共智库、大数据研究人员和社会公众提供实时的活动用户数量、QQ活动用户登录量、微信用户登录数量等统计信息并不构成用户私人信息泄密,而这些信息对于大数据分析却极为重要,对于完善国家人口基础信息库的工作尤其重要和关键。国家应以立法的形式要求这些企业提供数据,并给予这些企业相当形式的补偿或税收减免。

(三)构建人口大数据共享体系

大数据建设是一项动态有序、投入极大、牵涉面很广的系统工程,没有政府主导的顶层设计,没有良好的运行机制,没有行政机关出面协调各个环节的互助合作,整合电信和网络资源,是难以形成和推动的。因此,要建立长效的中央对地方政府、各地方政府之间的信息共享机制,提高各级和各地政府之间、政府和企业之间的管理协同和数据共享,深入进行数据积累和数据挖掘,建立数据资源监管体系。一方面要进行纵向数据系统整合,在上下级数据库体系之间,在多级网络和中心数据库之间构建一体化的数据平台。另一方面,进行水平的数据系统整合,实现大数据系统的共享和协同。要实现从海量数据挖掘到高效智能处理,汇集各种异构数据,消除“信息孤岛”,实现信息共享。这个工作,必须由政府牵头,企业参与,从而形成数据共享综合体,合力推进才能实现。

(四)加强公民个人隐私的保护

大数据时代,一方面互联网络服务提供者十分方便地采用搜索技术和云计算等技术手段,将公民个人信息搜集整理并且得出某些结论。另一方面,一些利益相关的机构和个人也会别有用心地利用这些涉及个人隐私的信息。因此要在大数据系统实施严格的个人隐私保护。首先,切断公民个人隐私泄密的一切通道。禁止在未经同意的情况下,采用技术搜索或者云计算手段,将公民的信息进行收集、整理和泄露。其次,禁止信息非法使用。互联网络服务提供者也不能随意将合法渠道获取的互联网使用者的个人信息发布出去。最后,必须进行相关立法。参照美国的隐私人权法案和欧盟的“被遗忘的权利”法案,我国需要立法保护公民的隐私不受侵犯,赋予公民追索个人隐私侵犯者法律责任的权利。

[参考文献]

Barabási A L. The origin of bursts and heavy tails in human dynamics[J]. Nature, 2005(435): 207-211.

Candia J, Gonzalez M C, Wang P, et al. Uncovering individual and collective human dynamics from mobile phone records[J]. Journal of Physics A, 2008, 41(22):1441-1446.

Oliveira J G, Barabási A L. Human dynamics: Darwin and Einstein correspondence patterns[J]. Nature, 2005(437): 1251-1253.

Vazquez A, Oliveira J G, Dezso Z, et al. Modeling bursts and heavy tails in human dynamics[J]. Physical Reviw E, 2006, 73(3): 036127-1-036127-19.

赵时亮,高扬.基于移动通信的人口流动信息大数据分析方法与应用[J].人口與社会,2014,30(3):20-26.

周天绮,严奥霞.基于移动通信大数据的流动人口统计中Hadoop的应用研究[J].软件导刊,2015(3):36-38.

周晓津,姚阳.基于大数据的京沪人口流动流量、流向变化研究[J].大数据,2016(3):49-59.

[责任编辑 王艳芳]

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!