数据新闻中的数据安全隐忧及多元治理

时间：2024-06-19

☉王海滨葛方度

数据新闻（Data Journalism）亦称之为“数据驱动新闻”，是大数据时代出现的一种新型新闻报道形态。数据新闻是通过对数据的收集、过滤、整理及分析，借助算法挖掘数据内部的关联性，进而对具有价值的新闻进行报道的新闻产品。

与传统新闻相比，数据新闻具有以下新的特征：一是新闻的生产过程是通过算法分析完成传统人工操作难以处理的庞大数据集；二是新闻传递的速度之快及与受众的互动性之密切前所未有，且高度依赖于移动数据端等数字媒体；三是数据新闻通过对数据信息的分析与展示，能够满足传统文字叙述无法应对的公众多元化需求，增强用户交互式阅读体验；四是基于数据生产的新闻客观性较传统人工操作更强。

目前，数据新闻已在欧美各国盛行，美国《纽约时报》、英国《卫报》等西方媒体在数据新闻报道方面走在国际新闻界的前列。国内人民网、新华网、央视网以及新浪、搜狐、网易、腾讯等网站也在积极发力，通过移动终端全力发展有中国特色的数据新闻业务。目前，我国媒体在该领域的新闻报道仍以数字、图片报道为主，在形式创新及互动方式上与欧美媒体尚存在着一定的差距。

随着大数据及人工智能技术的广泛应用，数据新闻被越来越多地运用到新闻生产中。但是，数据新闻近年来也暴露出数据隐私泄露、数据质量参差不齐、数据保护隐忧等一系列安全问题。这些数据安全问题不仅关系到数据新闻及媒体行业的公信力，也直接使得媒体行业未来数据化、智能化发展面临着更大的挑战。

一、数据新闻的个人隐私数据泄露隐忧

数据新闻的个人隐私数据泄露隐忧，是指数据新闻可能会导致个人隐私数据泄露的问题，这主要出现在数据抓取、新闻生产及分发程序的开发及测试、新闻生产及分发的运行过程之中。真实性是新闻的生命，通过数据抓取的信息生成的新闻越真实，就越符合新闻的本质价值。然而，对于涉及公民个人隐私的数据，新闻采访报道越详细、越具体，也就越容易对个人隐私产生侵害，这就构成了个人隐私数据与新闻真实性的矛盾与冲突。由于全球新闻媒体对大数据及人工智能技术生产及分发新闻的依赖性不断攀升，使得个人隐私数据的安全问题日益显现。

一是数据新闻在数据采集过程中可能对个人隐私的侵犯。随着大数据及人工智能技术在新闻领域的应用，新闻数据的采集变得较以前更加便利、快捷。然而，当前全球主要新闻媒体并没有就数据采集形成一个完备的规范体系，这就使得个人信息采集过程中的隐私侵犯问题不可避免，如视觉及语音识别等均存在采集人脸、声纹等个人生物特征的情况，如果未得到用户的允许而擅自采集，必然造成对个人隐私的侵害。即使有媒体规定，数据在采集过程中要去掉个人“可识别性的信息”，但由于数据的采集过程中存在着巨大的商业利益，仍然无法杜绝对个人隐私侵害的可能。如海外知名社交媒体推特曾在2018年9月公开承认，它曾在未经用户允许下将用户数据与广告商共享，遭到其用户的强烈质疑与不满。

二是数据新闻在数据应用过程中对个人隐私的泄露。数据在采集、测试、新闻生成及分发的过程中，都有可能导致个人隐私数据的泄露。造成数据泄露的原因多种多样，可能是数据生成及分发过程中的技术问题，亦可能是不法分子借技术系统漏洞窃取所致，或者是新闻制作人员的无意之举，等等。数据泄露已经成为新闻行业对个人隐私侵犯的重灾区，国内外各大媒体时常曝出个人隐私数据在新闻领域应用不当或被泄露的消息，从而直接引发公众对新闻媒体的不满。例如：美国纽约的《新闻报》曾在2012年底的网络版新闻中公开披露该地区枪支许可持有者的姓名与地址。尽管该媒体表示是依据当地相关法律获取的公开记录，但当地多数公众却谴责该报侵犯其个人隐私权，令枪支许可持有者面临安全威胁，甚至有用户威胁要抵制该报的出版与销售。

来自美国《新闻报》的地图可以使读者看到纽约洛克兰地区（Rockland County）枪支许可证持有者姓名及地址。地图来源：https://edition.cnn.com/2013/01/18/us/new-yorkgun-permit-map/index.html

个人隐私权被侵犯，不仅使当事人的个人生活受到极大的负面影响，同时也容易出现对个人财产及人身安全的伤害。目前，新闻媒体对个人数据隐私保护不力是数据安全领域中最为突出的问题，这也往往导致网络舆论暴力现象的出现。在抗击新冠肺炎疫情的新闻生产过程中，涉疫人群的流调情况是新闻的数据重点抓取对象，容易在采集及应用的过程中出现侵犯个人隐私及网络暴力问题。如2021年8月社交媒体上热炒的“武汉海王事件”，曾使当事人饱受个人隐私被泄露后遭网暴的困扰。不仅如此，由于新闻数据使用不当，侵犯他人隐私权所导致的诉讼案件也日益增多，显现出新闻行业加强个人隐私数据安全保护的迫切性。

二、数据新闻的数据质量隐忧

数据新闻的数据质量隐忧，指生成新闻的基础数据在采集、训练及生成过程中所存在的质量问题。就新闻媒体而言，翔实而准确的信息是真实性新闻生成的基础，如果信息失真或出现差误，那么生成的新闻也必然与事实真相存在着差距，并可能会严重误导社会舆论的走向。不仅如此，由于互联网时代的新闻信息在传播速度上远快于传统媒体，很容易导致不实信息迅速传播，进而引发舆情，对媒体声誉产生难以挽回的负面影响。

一是技术上体现为数据采集的质量问题。一般而言，新闻数据采集的样本范围应该有明确的规范，这样采集的新闻数据才有可能有生成新闻的价值；如果采集的样本范围不准确，就会出现采集样本范围过小或过度的问题。例如：美国《坦帕湾时报》曾发布了一个“嫌犯照片”的数据库，记载着当地被捕犯罪嫌疑人的个人信息与照片。然而，被捕并不意味着犯罪，有些被捕者会被无罪释放。尽管该媒体就此进行了解释，但公众舆论仍认为会导致个人名誉受损。因此，必须在技术上加强新闻数据采集模型的合理设计，设置好相应的参数并不断改进，尽可能避免采集数据失真问题。

二是管理上表现为对数据技术人员在采集、训练及运行数据过程中的业务熟练度的隐忧。数据的技术性应用固然是通过大数据及其人工智能技术手段来完成，但实际操作的技术人员对数据新闻技术的熟练度即采集、训练及运行数据经验的高低，都能够左右何种数据被采集，并直接关系到数据样本质量的高低。有些媒体技术人员往往本末倒置，即对智能算法推崇备至，却对基础的数据非常轻视，认为有了数据新闻生成算法，数据质量有些偏差也可以接受。例如以算法推送而著称的国内某资讯客户端，在2017年多次被曝光推送低俗内容。这实际上反映了部分媒体过度依赖公众使用时长与内容点击率的算法，在数据新闻管理及其理解上存在着严重的认知错误，这必然不利于媒体自身的发展。因此，新闻媒体必须通过自身的政策及其相关制度，规范数据采集的基本规则、质量目标、权责情况，建立一支专业的新闻数据技术队伍。

三、数据新闻的数据保护隐忧

数据新闻的数据安全保护隐忧指的是，媒体行业必须保护基础数据的所有权或数据新闻的版权不为他方窃取或侵犯。数据是数据新闻的核心基础，而保护该数据又贯穿于数据采集、传输、储存、生成和播发数据新闻的过程之中。因此，无论是数据新闻最终生成的哪一个链条或环节，都必须注意保护相应数据的安全性。由于数据是数据新闻得以生成、保持真实性的根基，如果数据的基本安全性得不到保证，那么不仅会使数据新闻本身出现偏差，更会使该媒体的公信力受到严重影响。

一是媒体和互联网企业必须重视新闻数据在网络传输和储存中的安全。一般而言，如果新闻数据存储在局域网的云端存储系统且无互联网连接，那么数据安全保护性就较高。但是，如果数据存储在有互联网连接的设备上或者是带有移动智能的端侧设备上，以及在通过网络传输数据之时，都很容易受到网络攻击而使数据出现泄露。2020年3月，社交媒体微博被曝5 亿用户数据在暗网被出售，引发众多微博用户的担忧与不满。除此之外，媒体间的新闻数据共享安全亦有可能存在着漏洞，可能使数据在运用的过程中出现向第三方分享数据的问题，因为现有数据链安全保密技术不能保证媒体机构的数据安全防护万无一失。

二是媒体和互联网企业必须重视新闻数据在标注上可能存在的安全漏洞。鉴于大数据时代的数据量规模之大，多数媒体机构并无足够资金、设备及人力去处理数据，往往采取力所能及的部分数据自主标注的方式，同时委托一些数据商进行标注。在标注的过程中，无论是媒体还是数据委托商的标注人员，都会接触到最原始的新闻数据或数据集。因此，如果媒体机构或数据委托商对这些标注人员管理不严或不规范，就有可能出现数据标注错误、窃取、未授权访问等数据污染安全问题。如2019年9月，国家工信部就“ZAO”客户端用户隐私协议不规范、存在数据泄露等风险问题约谈陌陌公司，并要求其限期整改。

三是媒体和互联网企业必须重视授权范围及新闻版权窃取的安全问题。新闻媒体在数据采集的过程中，有可能出现与用户授权范围不一致的情况，主要体现在商业渠道采集数据超出了用户授权的范围。例如有些数据仅限于科学研究之用，却被拿去用于商业用途。除此之外，有些媒体在商业竞争中为了谋求优势，往往在数据采集上越界侵犯新闻数据的原有版权。例如：2014年以来，国内某资讯客户端数次被曝出涉嫌未经允许而大量抓取腾讯、搜狐等媒体网站的独家内容，进而借助智能算法进行整理、归类并推送给用户。

四、数据新闻的数据安全多元治理

数据新闻必须保证其基础数据的安全性，这既是数据新闻未来发展的基础和保证，亦是新闻媒体走向数据应用化与智能专业化的必经之路。因此，许多国家纷纷出台政策或措施，通过顶层设计、立法监管、行业规范、技术改进及提高新闻从业者素质等多方面入手，试图规范包括新闻数据在内的大数据安全运营治理。我国数据安全保护政策及其新闻媒体已有措施主要表现在以下几个方面：

第一，通过顶层设计规范大数据及智能算法在新闻领域的运作。只有从更高的战略安全格局入手，从顶层设计上加强数据新闻的安全与发展的筹划，才能切实保证我国新闻媒体能够在激烈的全球数据战略竞争中取得优势，保证数据合理、合法、合规的使用，并保持数据新闻在技术、安全、应用上的平衡发展。

第二，通过立法对数据新闻在数据安全应用上予以保护、监管。目前，各国为了应对大数据及智能技术所带来的对个人隐私及国家安全的挑战，纷纷就数据使用规范进行立法限制，特别是在人脸识别及其数据共享等领域表现得尤为突出。如欧美的一些国家或地区均通过了相关立法法案，对企业个人数据的使用进行了法律规范。我国已经通过《网络安全法》，对企业在数据采集、使用、交易及共享等环节进行了立法。《个人信息保护法》及《数据安全法》开始正式生效。如《数据安全法》中明确规定：“各地区、各部门应当按照数据分类分级保护制度，确定本地区、本部门以及相关行业、领域的重要数据具体目录，对列入目录的数据进行重点保护。”因此，尽管现在尚无新闻媒体数据安全的法律出台，但也要充分考虑到新闻媒体与上述法律的适用性问题，并能够在相应条款中明确新闻媒体在数据安全立法中所适用的范围。

第三，应考虑推出新闻媒体行业的数据安全及人工智能应用规范及其标准。目前，国内外尚未有新闻媒体行业适用的大数据及人工智能通用标准出台，仅仅在某些特定领域有相应的数据安全标准问世，如英国就汽车自动驾驶出台个人数据及信息的安全规定。我国同样也是在某些特定领域出台了数据安全的要求，如智能家居领域已经有征求意见稿出台，银行业也出台了《金融数据安全分级指南》。因此，新闻媒体行业、相关国家机构及学界应联合起来，对媒体行业的数据安全及人工智能应用规范及其标准进行征集、交流、探讨，从最基础的新闻数据安全应用入手，形成媒体新闻数据的技术规范及其应用标准，并向新闻媒体行业推广。在推广的过程中，还可能依此建立标准的数据测试集及样本库集，供新闻界数据或智能算法开发人员使用，以期进一步改进应用中的数据安全问题。

第四，从技术上加强对数据安全与隐私算法的开发及保护力度。在顶层设计、立法规范及其行业标准建立的过程中，也要重视从技术手段入手，从资金及人员等物力上加强技术攻关，鼓励媒体及其相关机构研发致力于保护数据安全与提升数据质量的技术。此外，针对外界可能存在的数据安全攻击问题，也应采取数据过滤训练、集成分析等方法来减少数据污染，并通过对抗数据训练、样本检测及深度神经网络模型验证等技术手段，加强对数据对抗样本攻击的防御能力。

第五，坚持以人为本的新闻行业理念，加强企业数据安全管理及员工培训制度。目前，新闻媒体行业开发及应用大数据及人工智能技术的力度非常高，但对数据安全领域的关注度明显不够。因此，媒体行业需要从组织制度着手，设立相应的数据安全机构与专职人员，通过数据安全制度的完善及其机构文化的宣传，加强数据安全技术攻关及其在岗人员数据安全意识的培训，使媒体行业在组织、规范、文化、管理、技术、意识等领域形成一个完备的数据安全制度体系，并逐渐在行业内部形成新闻媒体人坚守数据安全的基本理念。

五、结语

***总书记在中共中央政治局第十二次集体学习时强调：“全面提升技术治网能力和水平，规范数据资源利用，防范大数据等新技术带来的风险”。因此，新闻媒体要充分保证大数据及人工智能技术的安全性，减少甚至杜绝数据泄露等安全问题的发生，构建一个新闻数据安全治理的框架体系。在这个安全治理框架之中，新闻媒体以及政府机构、大数据及智能算法开发方、硬件制造商、新闻数据服务提供方、网络安全方等各个主体共同协作，通过治理框架、监管法规、治理标准、算法技术等多元层次同步合作，才能共同解决新闻媒体行业面临的大数据安全问题。

注释

①〔美〕安杰拉·莫斯卡里托洛：《推特漏洞可能会泄露私人信息》，电脑杂志网，2018年9月21日，https://www.pcmag.com/news/twitter-bugmay-have-exposed-direct-messages.

②〔美〕丽贝卡·麦克斯韦：《〈新闻报〉的枪支许可证地图》，地理信息系统室网，2013年1月21日，https://www.gislounge.com/the-journalnewss-gun-map.

③〔美〕马克·米利安：《〈坦帕湾时报〉的嫌犯照片引发伦理争议》，洛杉矶时报网，2009年4月10日，https://latimesblogs.latimes.com/technology/2009/04/mugshots.html.

④《中华人民共和国数据安全法》，中国人大网，http://www.npc.gov.cn/npc/c30834/202106/7c9af12 f51334a73b56d7938f99a788a.shtml.

⑤《推动媒体融合向纵深发展，巩固全党全国人民共同思想基础》，《人民日报》，2019年1月26日，第1 版。