社交媒体Web Archive的技术架构设计

时间：2024-07-06

陈超天

（广州图书馆，广东广州 510632）

大数据概念提出人阿尔文·托夫勒（Alvin Toffler）早在1980年指出 “社会记忆永久存在”[1]。Web Archive（网络信息资源存档，简称WA）则是实践意义上的社会记忆。对于社会记忆的管理与塑造是网络意识形态工作的重中之重。传统意义上的WA是指一种在 “原生性” 网络信息资源的整个生命周期内对其进行有目的地评价、选择、采集、描述、元数据表示、存储、发布和维护等一系列工作，以确保其当前可用和未来价值增值的管理活动[2]。笔者所讨论的社交媒体Web Archive则是仅对于社交媒体方面的内容进行这些管理活动。

社交媒体（SocialMedia）一般意义上是指建立在互联网技术基础上的互动社区[3]。其数据有着数据来源（用户）庞杂[4]、非结构化[5]、数量大（占互联网大数据的80%[6]）、具有完善的研究框架（如SNA）等特征。

1 社交媒体的影响力

社交媒体对于世界的政治、经济、文化都有着极强的影响力。在政治方面，David S.Morris在ACM上指出，Twitter等社交媒体平台在特朗普当选美国总统的竞选过程中发挥了关键作用[7]。在经济方面，学者常通过针对社交媒体的情绪分析维护商业名誉[8]。在文化方面，清博大数据2018年12月19日微信公众号影响力总榜[9]可知各类社群媒体篇均阅读量大多已为10万以上，榜首月总阅读量已达到0.7亿次，也即年总阅读量约为8.4亿次，远远超越了普通纸质资源和普通电子资源的文化影响力。此外，其还能作为历史研究的研究基础[10]。

基于社交媒体在各领域的巨大价值，国际社会早已建立了诸如美国国会图书馆Twitter档案馆项目[11]、英国国家图书馆的UKWA[12]等先驱WA项目。WA项目在国内外发展迅速，截至2018年4月，据维基百科不完全统计，国际上已有约80余个成功实施的WA项目。在国内相关领域，白美程等通过普赖斯逻辑曲线增长理论指出，国内WA项目领域整体已从引入期和发展期过渡到相对成熟的探索期[13]。因此，构建适应我国发展实际的可持续的社交媒体WA项目是必要的。

2 构建可持续的社交媒体WA项目

2.1 明确社交媒体的控制主体与执行主体

2.1.1 社交媒体的控制主体

2.1.2 社交媒体的执行主体

社交媒体的执行主体应以图书馆、档案馆为主，以民间机构及个人为辅。图书馆、档案馆是国外社交媒体WA项目的现行执行主体，但却存在隐私权法律法规变更、成本愈加增大、品种单调、不能完全开放给公众使用等问题。哪怕国际上最有代表性的社交媒体WA项目——美国国会图书馆Twitter存档项目也不例外。在诸如美国加州第568号法案（著名的 “橡皮檫” 法案[15]）、《通用数据保护条例》（General Data Protection Regulation，简称GDPR）[16]等保护用户的 “被遗忘权” 的法律与条例被颁布后，社交媒体WA项目更是举步维艰。《中华人民共和国网络安全法》[17]颁布后，基于民间有着良好的珍贵文献（包括纸质和电子文献）保存习惯，民间机构与个人通过Pagefreezer，WebPreserver等统一化保存解决方案也能在合乎现有法律法规的前提下对于官方社交媒体WA项目提供补充。

2.2 社交媒体WA技术架构设计

2.2.1 存储架构设计

存储架构设计是目前所有WA项目建设时最先需要考虑的技术问题，其整体架构设计主要需要考虑如何规划存储空间、如何确定存储数据的格式以及如何保证 “被遗忘权” 。

2.2.1.1 存储空间规划

存储架构设计是目前所有WA项目建设时最先考虑到的技术问题。不妨将整体架构设计问题细化为几个容易解决的问题——存储哪些内容、所需存储空间是否能够承受、如何规划存储空间、存储数据的格式如何以及如何保证 “被遗忘权” 。

以合法为前提，应尽可能存储所有可开放获取的原始社交媒体数据，而不是加工后的成品数据或需要额外授权的媒体数据（如付费、隐私等）。尽管IFLA在国际图联图书馆员和其他信息工作者道德规范中说明，图书馆员和其他信息工作者的目标是为用户提供公平、快速、经济和有效的信息访问[18]。但实际情况是，国际上包含美国国会图书馆（Library of Congress，简称LOC）、中国国家图书馆、澳大利亚国家图书馆等WA项目执行主体在内的多家机构，都逐渐开始仅收集政治或社会性事件的社交媒体数据[19-20]，而不再选择全量保存原始数据或不再开放访问。众所周知，已经汇聚成专题的数据的潜在可挖掘价值远不如原始数据大。是什么原因导致各大执行主体放弃收集全量数据呢？是成本。在能够承受成本的前提下，理应尽可能多、尽可能全地存储原始数据。这样才能在未来希望研究新的主题时，更好地建立专题数据研究库。那么，我们是否能够存储如此海量的数据呢？

如果需要尽可能多地存储原始数据，所需的存储空间笔者认为是完全能够承受的。以2013年LOC TwitterWA项目白皮书[21]内的存储方案为例，其存储的方式分为三步：每收集1小时的数据上传一次临时服务器、检查新生成的文件完整性并归档至数据磁带、删除临时服务器内的文件。该项目2006年至2010年的1700亿条全量源数据也不过66.2TB，而2022年7月Quantum Ultrium LTO 9数据磁带的单价约1200元人民币，每个可存储45TB数据，也即存储6份LOC Twitter项目的5年备份也不过1万元人民币而已。按照第六次全国县级以上公共图书馆评估中省级（副省级）图书馆等级必备条件可知[22]，1万元仅为东部省级一级图书馆的年度最低拨款的16.7‰。如果仅是全量保存数据的，这是中国任意一个省级（含副省）馆都完全能够承受。但若全部数据都存放在数据磁带，又会面临和LOC一样的问题——如何保证读取速度。

计算机存储介质的存取数据越快、可靠性越高，则价格一般也就越贵。目前业界高可用系统的存储方案一般以访问频次将数据分为三类处理：热数据、温数据、冷数据。访问频次越高代表数据越 “热” ，越要把昂贵的存储介质分配给它。但是对于WA数据而言，大多是低价值密度数据，必然会存在海量的长时间内不会被访问的数据。如果放在磁带库读取过于慢、放在厂家的高可用存储又太贵、放在图书馆自有的较廉价的存储可能又不够稳定。IPFS（Inter Planetary File System，星际文件系统）则在可靠性、读写速率、成本三者之间达成了平衡。IPFS是一种结合了区块链、版本控制系统Git、BitTorrent、系统分布式哈希和自认证文件系统的分布式文件存储协议。国内已有学者尝试性地将IPFS运用于短视频分享平台的构建上，并取得了良好的理论数据结果[23]。综上，将不同价格的存储整合在一起（见表1），则可建立起一套以热度区分的存储空间规划方案。

几天过后，成绩发下来了，其他成绩还行，唯有英文不及格。妈妈若有所悟地说：“这也难怪，孔夫子不懂英文，下次我再去求求上帝保佑就好了”

表1 以热度区分的存储空间规划方案

2.2.1.2 确定存储数据的格式

抖音、微博、知乎的社交媒体的数据一般由人员信息（发布人员、交互人员）、发布内容（含多媒体信息，如文本、视频、地点等）、交互行为（如点赞、转发等）共3个部分组成。不妨针对上述3个部分建立实体，以人员、内容、行为为基础构建最基础的通用元数据内容标准来进行储存。因为原始数据较为完整，用户需要使用时，可实时通过ETL框架抽取并建立特殊的专题格式或者其他类型的数据形式。当专题数据拥有商业或科研价值后，如果有用户愿意支付存储的成本，可再以该专题的特有格式建立数据更新机制，保证专题数据的稳定性。

2.2.1.3 “被遗忘权” 的保护

社交媒体WA项目中用户 “被遗忘权” 的保护也是诸多法律学界、图书情报学界学者[24]的关注重点。 “被遗忘权” 在我国的实现方式是通过用户的举证来删除用户曾公开的或被公开信息。尽管IFLA曾呼吁在历史记录中保存个人身份信息[25]，但对于大规模的社交媒体WA项目，最好能对人员信息实体附加可举证但不可破解的特征，如将用户ID等内容通过摘要函数隐藏起来等。一方面，当WA项目用户使用数据时无法将已经通过摘要函数隐藏的用户信息还原成实际可读的信息，保证了读者的隐私权；另一方面，用户能够通过原有的ID信息举证自身对于信息的拥有权，从而向项目方提出删除申请，保证了读者的 “被遗忘权” 。需要注意的是，中国关于 “被遗忘权” 的法律条文，没有对删除的时间进行要求。对于用户提出的删除请求，项目执行主体完全可以维护一条删除消息队列，根据技术架构特点和存储数据的冷热流动情况定期完成删除操作。

综上所述，笔者从几个方面简要描述了整体的存储架构，但实际上仍存在部分问题没有被提及，比如如何让用户加入基于IPFS的存储共享平台、整体存储架构与图书馆无关、整体服务与系统的运营成本由谁承担等。这些问题应该通过社交媒体WA项目的开放平台架构设计来解决。

2.3 开放平台架构设计

无论是出于商业、科研、政治安全还是其他的原因，所有的社交媒体WA项目的最终目的还是为了提供给用户使用。在上述提到的存储结构设计的基础上，还需要有完整的数据层、业务层、前端展示层，才能完成从数据储存到用户的使用。

在数据层，需要实现存、转、纳、用4个功能。首先，存是指能够被动接收或主动拉取社交媒体数据存入数据磁带，保证所有的社交媒体数据至少有一个以上的数据磁带备份。其次，转是指当有数据被申请调用时，能够支持冷数据（数据磁带）向温数据（IPFS）的转换，也即将数据磁带里的数据转换到IPFS内可供快速读写的分布式数据。再次，纳是指参加WA项目的所有图书馆或志愿参加的其他用户能够支持IPFS的存储介质需要纳入整体的IPFS体系中。最后，用是指能够提供数据ETL功能的能力接口，可供用户调用ETL接口生成知识图谱、社交网络分析等高级应用。此外，需要注意的是，负责统筹项目图书馆仅需要保存不可直接使用的极度廉价的数据磁盘内的全量源数据。当有科研任务到达时，需要支付代币作为酬劳，而志愿加入IPFS的图书馆或其他机构或用户提供存储空间并获得代币。当志愿加入的个体不足时，数据层应该按照使用量从低到高的顺序删除IPFS体系内的数据。IPFS的特性是，覆盖网络越大整个存储系统越稳定，需要用于 “激励” 参与用户的代币（同样任务情况下）越少。这样就能保证在用户增多的情况下，成本变少。

在数据层之上的业务层，需要有一套完整的类似于BOINC的分布式计算平台，需要能够基于数据层提供的接口和协议完成计算任务的分发，且实现用户激励机制。当用户量和使用量增加时，所需要的技术支撑成本也将增加。随着项目的使用群体越来越多，总会超出执行主体能够承受的极限。因此，需要考虑建立一种可持续的存储和开放平台技术架构，能够实现使用群体越多成本越低的目标。美国加州大学伯克利分校运营的伯克利开放式网络计算平台（Berkeley Open Infrastructure for Network Computing，简称BOINC）和IPFS是目前最为符合使用群体越多成本越低的开放平台和存储底层技术架构。BOINC采用的是具有分散通信、计算和存储但又控制集中的分布式计算网络。用户自愿加入网络后，可以将个人PC的算力共享给BOINC，而BOINC会将用户做出的贡献转化为积分（或者可以称为代币）。在此过程中，算力任务在分布式计算引擎的规划下，下发给各个节点进行运算，最终整合为项目所需的计算结果。IPFS也支持通过开发方式增加代币激励机制。随着项目的使用群体越来越多，每个科研或商业项目的平均成本就会降低，而由于使用用户负担了项目的成本，作为执行主体的图书馆只需要支撑整个平台的 “交易” 服务即可。

代币机制的运营一般基于一个已存在的用户群体，需要能够有一套完整的代币消耗闭环，而图书馆就是一个能够提供用户群体和闭环的完美执行主体。中国有969个拥有 “一级图书馆” 等级的公共图书馆和147所双一流高校的高校图书馆[26]，公共图书馆拥有庞大的用户群体，而高校馆拥有庞大的科研用户群体。以高校项目资金为代币购买方，以图书馆用户群体为算力与存储基础，辅以图书馆的冷数据存储和较高要求的高可用存储集群，足以支撑起整体的技术框架运营。

故此，结合存储结构设计部分的内容，可以建立一个整体架构（如图1）。

图1 系统架构