网络出版监管平台的设计与实现

时间：2024-05-04

陈奎良

网络出版，是指具有合法互联网出版资格的出版机构，以互联网为载体和流通渠道，出版并销售数字出版物的行为。2014年1月，中国互联网络信息中心（CNNIC）发布的《中国互联网络发展状况统计报告》显示，截至2013年12月，中国网站数量为320万个，按出版类网站占5%计算，从事网络出版的网站就达16万个。但这其中仅有600多家出版机构获得网络出版资质，可以说，绝大多数网站在被动“非法”从事网络出版服务，其登载作品良莠不齐，不少非法甚至淫秽色情等不良信息充斥其中，严重影响了网民的心理健康。笔者调研发现，大家对监管系统建设的重要性都有充分认识，但实际开发还处于摸索阶段，主要存在对系统功能设计标准不一、认识不清等问题。笔者具有多年网络出版监测系统设计经验，希望在此通过对网络出版监管平台建设的阐述，给大家提供一点思路，以求抛砖引玉。

网络出版监管平台的分析与设计

要建设网络出版监管平台，必须充分研究和分析网络出版监管业务需求，结合为社会服务、为行业服务的建设目标，才能真正实现网络出版监管平台建设的意义。笔者认为，网络出版监管平台应包括内容监管系统、舆情监测系统、网站综合评价系统和网站审核系统四部分，至少包括以下功能：

1.网站发现。网络出版网站与监管平台实现对接有两种途径：一是网站与平台自主对接，提供登陆账号、密码、网站规模、主办单位等网站基本信息，便于平台实现网站基本信息的著录和管理，对网站违规内容进行实时监管；二是未对接网站的收集和监管，对于未能自主对接的网站，平台要通过设定搜索规则，实现自动收集网站的域名和基本情况，并纳入网络监管平台的监管范围，实现全网全业务监管。

2.网站信息著录。依托监管平台，完善对网络出版网站基本情况的著录和整理，建立网络出版单位基本信息数据库，便于行业主管部门摸清家底，提高公共服务能力。

3.信息采集。信息采集是指利用计算机软件技术对网站的任意网页进行目标分析，分析出网页的各种属性信息，并根据采集规则进行分类存储，除采集网站基本情况信息外，还采集出版物的一些基本信息。

4.文本挖掘。依靠文本挖掘引擎技术实现对文本的深度解析，把需要的信息进行分类细化提取，实现文本自动归类和自动梳理。

5.全文检索。监测网站出版物是否存在违规内容是监管平台的主要功能之一，要实现这项功能必须进行全文检索。一般的检索系统只是基于标题或关键词的检索，而全文检索细化了检索的颗粒度，让文本内容全部参与检索，并且能够对检索结果进行排序，极大提高了检索精确性。

6.违规内容鉴别。违规内容鉴别要根据出版物的不同载体有所区别，对于文本型内容，基于敏感关键词库，通过预定义的敏感关键词或通过语义规则模型，实现对文本型正文的自动匹配；而对于音视频类出版物，则自动检索已采集的音视频出版物，通过语音识别、镜头划分、关键帧提取等音视频语义分析手段，实现对全媒体出版物内容违法违规情况的智能预判。

7.出版物内容审核与处理。该功能是平台的主要功能之一，对平台预警出来的涉嫌违规出版物进行审读和处理。该功能通过监管网站权重、违规主题、采集时间、发布时间等指标，实现出版内容违规信息的分类分级优先审读，导航区可支持监管主题、出版物类型、出版物形态等分类方式，对预警案件审读后在平台中完成撰写审读意见报告。

8.网络出版舆情分析。通过对互联网海量信息自动获取、自动聚类、主题检测、专题聚焦，实现对互联网信息的舆情监测、信息监控及专题追踪等功能，形成监测简报、分析报告等结果报告，为用户全面掌握舆情动态，进而做出正确舆论引导提供分析依据。

9.导航主题分类与管理。监管平台导航主题应实现多维度的管理模式，通过出版物的违规主题、出版形态、学科进行分类分级显示，违规内容主题可根据《出版管理条例》中的禁载规定设置监管主题。

10.知识库管理。知识库管理是对监管平台基础数据的管理，包括语料库、语义规则库、敏感词库、网站基本信息库、主题数据库、违规案件库、舆情信息库等。

11.取证管理。对于网站违规内容等电子证据的固化和保全，在监管平台中也是一大亮点。通过自动化取证管理模块，模拟进行多线程的网页快照抓取，提高了进行大量网页快照取证的工作效率，对不同网站、案件进行多级目录存取，对页面地址栏、首页内容、页面ICP等信息进行标准化取证。

12.网站评价体系。基于监管平台的基础数据，以数据采掘技术和人工整理分析相结合的模式，建立一套可行可用的网站评价体系，评价指标包括：网站规模、出版物种类、出版物数量、网站友好性、公益型、赢利型、违规情况等。

13.查询、统计分析。对网络监管平台中的采集数据、预警数案件、网站信息等各类监管数据的查询、综合统计、分析、报表功能。

14.系统运行管理。运行管理实现对系统业务参数和运行参数的配置和管理，分配用户权限，监控平台运行网络、软硬件等运行状态，出现异常进行报警。

15.系统安全。为防止网络用户攻击机反向定位，在网络层将所有访问互联网的终端地址加以隐藏，并在应用层设置访问黑/白IP地址，保证系统的安全。

监管平台开发关键技术分析

1.海量非结构化数据库管理技术

传统的数据库管理系统是针对关系型结构化数据的管理，对于非结构化数据没有有效的管理方式。目前网络上80%是非结构化数据，因此，网络出版监管平台亟需研发海量非结构化数据库管理技术，从而高效管理和利用这些数据。

2.文本挖掘技术

文本挖掘是从大量文本的集合和语料中抽取事先未知、可理解的、有潜在实用价值的模式和知识，面对海量的互联网数据，要求文本挖掘系统提供智能检索、自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、关联规则挖掘等多种实用功能，以其为基础可方便地开发应用系统，快速实现智能信息挖掘，有效地进行知识管理。

3.互联网信息采集技术

互联网信息采集技术是指利用计算机软件技术，针对定制的目标数据源，实时进行信息采集、抽取、挖掘、处理，将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中，从而为各种信息服务系统提供数据输入的整个过程。

4.多媒体信息的智能识别技术

目前，多媒体信息的智能识别技术可以为图、音、视等内容分析提供解决方案。比如色情图像和视频识别中可通过对肤色检测，对颜色、形状、脸部等进行特征标识和特征提取，并实行多维度的索引，对图像的内容作出识别，达到监测不良信息的目的。语音识别系统则通过连续语音识别，把语音信号转化成计算机信号进行识别处理。我们同样可以利用这项技术对网上传输的声音数据进行处理，把其中的语音信息转化为文字信息以实行内容安全处理。

发展应与管理相辅相成，有效的管理是保障网络出版取得健康发展的基础和前提条件。而仅通过人工手段进行监管显然已经满足不了管理的要求，必须通过技术手段实现网络出版的监管。同时，通过立法明确负面清单，监督限定网络出版行为，做到有法可依，有规定可遵守。在网络出版内容的管理方面，笔者还建议国家放低对网站网络出版业务资质的准入门槛，实行宽进严出的原则，实现网络化在线审核。随着技术水平的不断提高和智能语义分析技术的发展，加上我国政府对网上信息监管的重视程度不断加强，相信在不久的将来，网络出版必将保持健康有序发展。

（作者单位系新闻出版总署信息中心）