涉密环境下的非密办公网敏感信息监控系统设计

时间：2024-09-03

◆武越刘向东周晓俊石兆军李可

（中国航天科工集团第二研究院706 所北京 100854）

目前出于信息安全的考虑，涉密单位通常建设两套业务办公网，一套为专门处理涉密业务的涉密办公网，与互联网物理隔离；同时，为了精简涉密办公网的网络规模，涉密单位会同步建设一套仅处理日常公共事务的非密办公网，将主要非涉密业务迁移至非密办公网运行，包括出差申请、财务报销、非密公文审阅、民用业务等。

涉密办公网与非密办公网之间原则上并行运行，相对独立。但是，由于涉密单位的业务范畴在两网之间难免存在重叠，因此会出现由于工作需要将某些数据信息由涉密办公网导入非密办公网的情况。由于涉密办公网与非密办公网之间物理隔离，一般通过人工刻录光盘的方式进行两网之间数据中转，因此存在由于人为疏忽和失误将涉密敏感信息引入非密办公网的安全风险。

本文针对涉密单位对非密办公网中的敏感数据检测较为薄弱的安全防护现状，开展敏感信息监控系统设计论证，对非密办公网中可能存在的涉密敏感信息进行全方位检测、识别和阻断，确保非密办公网中的数据信息安全可控。

1 非密办公网安全现状及分析

1.1 安全现状

非密办公网一般与国际互联网逻辑隔离，具体划分为以下功能区域：用户终端区用于部署用户终端、安全产品区部署安全防护产品、业务应用区部署应用系统。非密办公网网络结构如图1 所示。

在安全防护建设方面，非密办公网部署VPN 密码机和防火墙实现网络边界的安全隔离与访问控制，部署防病毒系统实现用户终端及服务器病毒查杀，部署主机监控与审计系统实现对终端安全策略的配置和审计，在核心交换机旁路部署入侵检测系统对所有网络流量进行实时监测以及报警。

非密办公网中的业务数据主要以两种方式存在，一种以非结构化电子文件的格式存在，例如word、PDF 等；另一种以结构化格式依托于具体业务应用系统而存在，具有相对固定的数据格式。业务数据在网络传输的过程中，数据内容通常在应用层进行协议封装，包括使用HTTP 协议、HTTPS 协议和部分私有协议等。

图1 非密办公网网络结构图

1.2 安全风险

由于涉密单位的涉密办公网和非密办公网并行运行，两网之间不可避免地存在大量信息交换，当业务信息在两网之间传递的过程中，存在涉密信息由于人为操作失误进入非密办公网的安全风险。如果非密办公网出现了存储、处理、传输涉密信息的情况，将严重违反安全保密规定，后果极其严重。

同时，由于非密办公网与互联网逻辑隔离，如果非密办公网中存在涉密敏感信息，将有可能导致敏感信息进一步通过逻辑链路扩散至互联网造成敏感信息失控的局面，引发严重失泄密事件。

目前，传统的防火墙、防病毒系统、主机监控与审计系统等安全防护产品无法对非密办公网中的信息流量建立有效的内容审查机制，暂无较为有效的技术手段对非密办公网中是否存在敏感信息进行监控、检测、告警和阻断，存在较高的安全隐患。

1.3 非密办公网敏感信息监控需求分析

针对目前非密办公网对敏感信息管控措施较为薄弱的安全防护现状，亟需针对非密办公网建设敏感信息监控系统，一方面及时发现非密办公网中违规出现的涉密敏感信息，同时对非密办公网与互联网之间的跨网数据传输进行内容检测和阻断，从而保护敏感信息安全可控，避免出现失泄密事件。

通过建设敏感信息监控系统，将主要解决以下安全防护需求：

（1）对非密办公网的全部信息流量进行监控，对非密办公网中出现的涉密信息进行识别和告警；

（2）对非密办公网与互联网之间的跨网流量传输进行内容审查、识别和敏感信息阻断；

（3）对检测到的敏感信息流量提供有效的安全处置措施，避免敏感信息被非授权访问和二次扩散传播。

2 非密办公网敏感信息监控系统设计

敏感信息监控系统主要分为数据特征离线生成工具、集中管理平台和敏感信息监控网关三个组成部分。其中，数据特征离线生成工具负责在涉密办公网中离线生成敏感数据特征库，并将特征库导入集中管理平台；集中管理平台负责制定相应的规则策略，并将规则策略下发至敏感信息监控网关；敏感信息监控网关依据集中管理平台下发的规则策略执行数据检测识别工作，发现并阻断敏感数据，同时将安全事件结果反馈给集中管理平台。

2.1 数据特征离线生成工具

由于涉密单位的国家秘密事项信息和涉密文件样本均存储在涉密办公网中，因此，前期需要在涉密办公网中借助数据特征离线生成工具，利用文件关键词提取、文件指纹生成、机器智能学习等多种基于内容的感知与分析技术生成敏感数据特征库。敏感数据特征库由关键词字典、涉密文件指纹和机器学习模型共三类特征组成。

（1）生成关键词字典

提取国家秘密事项信息的关键词，生成敏感关键词字典。为避免由于将国家秘密事项关键词字典导入非密办公网造成二次泄密，借助密码算法[1]对关键词字典进行加密处理，保护关键词字典数据安全。

（2）生成文件指纹

对于无法直接提取敏感关键词的复杂涉密文件，通过指纹生成技术，对结构化数据和非结构化数据计算哈希值，生成文件指纹[2]，作为基于数据指纹技术进行敏感数据检测的依据。

文件指纹的生成过程主要利用密码算法实现，具不可逆特性[3]，因此可以有效防止在非密办公网中通过文件指纹逆向反推出涉密文件原文的可能性，降低失泄密隐患。

（3）生成机器学习模型

以上讨论的指纹技术和关键词匹配技术原则上均基于已知的涉密文件，但对未知数据对象则无法实现处理，比如一份新生成的财务报告和系统中原有的涉密财务报告都不一样，但确实也是一份涉密的财务报告。针对此种情形，采用机器学习技术[4]，通过对大量现有涉密文档进行分析，最后抽取出同类文档的共同特征，通过机器学习算法形成一个分类模型[5]，作为推断未知数据是否涉密的判定依据。在下一个被处理对象到达的时候，按照同样的方式进行特征抽取和模型对比，就可以判断出被处理对象是否属于涉密文件。

2.2.7 休息与睡眠要保证患者在手术前得到充分休息，手术前晚家属陪伴，减轻焦虑。完成手术前治疗后，可给患者适量镇静剂，如艾司唑仑片，但用药应在手术前用药4 h以上，减少药物协同作用，防止出现呼吸抑制状况。

2.2 集中管理平台

集中管理平台负责制定规则策略，并将规则策略下发至敏感信息监控网关；同时对系统进行整体配置管理和安全事件收集，并对数据安全防护情况进行分析和展现，包括事件处理流程跟踪、事件详情查看等。

（1）制定规则策略

集中管理平台依据敏感数据特征合理设置规则策略，作为敏感数据检测的判断依据。

基于关键词的规则策略：通过关键词对被处理数据进行对比分析，快速查找匹配的字符串。关键词规则策略可通过正则表达式和“与”、“或”、“非”判断进行逻辑组合，实现精确对比和模糊对比，并可通过对关键词设置权重实现权重累加对比。

基于文件指纹的规则策略：对于没有明确字符串匹配的数据，通过数字指纹技术快速得到被处理对象和指纹库中文件的相似度，当达到系统预定义的相似度阈值时，就会触发规则策略处理。

基于机器学习的规则策略：对于新的、并未出现在特征库中的未知数据，依靠机器学习模型进行数据特征提取和模型分析，通过机器学习模型对未知数据进行分类判定。

通过集中管理平台对系统发现的敏感数据进行定位、分析和评估，进行安全事件处理流程跟踪、事件查看等，并对安全事件进行汇总统计和综合展现。

2.3 敏感信息监控网关

敏感信息监控网关负责接收集中管理平台下发的规则策略，并对经过敏感信息监控网关的数据流量进行解析和检测。敏感信息监控网关一方面采用旁路部署模式，通过镜像方式对通过网络核心交换设备的数据流量进行监听，及时发现网内涉密敏感信息；另一方面采用主路部署模式部署在非密办公网的网络边界，对跨越网络边界的数据流量进行检测，对敏感信息流量进行识别和阻断。同时，敏感信息监控网关向集中管理平台报送审计日志，供集中管理平台进行安全事件综合分析。

（1）网络协议解析

非密办公网的数据信息主要通过网内部署的业务应用系统进行数据传输，数据内容通常在应用层进行协议封装。目前，非密办公网的大部分应用系统使用通用的应用层协议，敏感信息监控网关会在应用层对数据流量进行解析和识别，达到检测敏感信息的目的。

对于加密协议（如HTTPS 协议），敏感信息监控系统会首先将ⅠE、火狐浏览器中安装的根证书导入至敏感信息监控网关，敏感信息监控网关在主路模式下利用根证书解析用户端发送过来的数据，在完成数据内容解析后再模拟用户端将数据转发至对应服务器。

对于私有协议，目前敏感信息监控系统能够处理传输层使用TCP协议的明文私有协议[6]，主要方式是将私有协议使用的网络端口添加至敏感信息监控网关，敏感信息监控网关就能够对私有协议内容进行分析。

（2）文件格式识别

非密办公网中涉及主要的文件类型包括doc、docx、xls、xlsx、ppt、pptx、pdf、zip、rar、7z、txt、jpg、bmp、png、gif，敏感信息监控网关能够对以上多种类型文件进行内容检测。

对于图片格式文件，通过光学字符识别分析[7]，提取图片、红头文件扫描件、传真页、票据，表单等的文字敏感信息识别图片格式文件的敏感信息。

当文件为多重压缩的嵌套结构时，能够对多重压缩文档中的文件内容和类型进行识别[8]。

（3）敏感信息阻断

敏感信息监控网关将根据合规性检测规则和机器学习统计模型对传输的数据进行检测，当通过检测规则或机器学习模型发现敏感信息存在跨网传输的情况时，监控网关会在网络边界对敏感数据流量进行定位和阻断，确保敏感信息无法进一步传递，同时形成审计告警记录并留存相关的文件或数据包备查。当网关完成敏感信息阻断处置时，将发出提示信息告知用户当前数据传输行为已被禁止。

4 非密办公网敏感信息监控系统建设实施

在敏感信息监控系统具体建设实施的过程中，首先，在非密办公网的安全产品区建设集中管理平台，向敏感信息监控网关下发防护策略，并收集网关设备产生的安全事件日志；然后，在核心交换机旁路部署一个敏感信息监控网关，实现敏感信息全流量监控，同时在核心交换机到边界防火墙的链路上以主路模式部署另一个敏感信息监控网关，实现非密办公网与互联网之间跨网传输信息的敏感内容检测。

图2 非密办公网敏感信息监控系统建设实施示意图

对于敏感信息监控网关的部署模式，如果直接采取主路部署模式，可能会由于策略设置不当造成误报告警，出现阻断正常数据流量的情况。针对此种情况，考虑到不影响业务使用的现实要求，对于系统的建设实施将分阶段进行。在部署初期，通过集中管理平台将规则策略下发到敏感信息监控系统网关设备后，暂时将网关设备全部采用旁路部署模式接入非密办公网，仅对传输数据包进行抓取和分析，不做阻拦。每周对产生的违规告警记录中留存的数据包和文件进行分析，根据分析情况不断修订完善规则策略。此过程需要伴随系统使用过程不断调整，实现最终将检测误报率降至合理预期范围。

在部署试运行一段时间后，完成对非密办公网传输数据所使用的主要协议、文件类型、以及用户习惯的全面收集，在完成规则策略的阶段性验证和修订、能够做到最大限度避免误报或漏报情况下，再将敏感信息监控网关串联接入非密办公网与互联网之间的网络边界出口，根据最终的检测规则对非密办公网与互联网之间的跨网数据传输进行监控和阻断。

5 应用效果和后续建议

敏感信息监控系统建设完成后，一方面能够对非密办公网的全部数据流量进行监控，对非密办公网中的涉密敏感信息进行识别和告警，同时能够对非密办公网的数据外发行为进行监控，及时阻断敏感信息跨网传输，降低敏感数据泄漏风险，从而确保非密办公网不发生失泄密事件，最终达到保护敏感信息安全的目的。

从建设实施的具体效果来看，对敏感信息监控系统后续工作提出以下完善建议。

（1）敏感信息监控系统在建设部署之前，需要先对本单位的涉密敏感信息涉及的关键词和文件样本等开展大量预先整理和归纳工作，才能为后续的敏感数据特征库建立、文件指纹生成、机器智能学习等提供高效准确的原始信息，确保敏感信息监控系统真正发挥作用。以上工作需要涉密单位的相关科研业务部门给予大力配合，如果前期提供的原始文件样本数据不够准确，或者敏感文件关键词或敏感信息内容过于简略，将造成检测规则不精确，降低准确性，增加误报率，影响实际使用效果。

（2）敏感信息监控系统虽然能够为敏感数据检测提供一定的技术支撑，但是对于敏感信息监控网关检测发现的敏感数据，需要具体业务部门和保密管理部门的人员进一步核实确认，该部分工作需要涉密单位相关部门与网络运维部门协同配合，才能真正达到既不泄漏敏感信息、也不影响合法数据传输的目的。

（3）由于敏感信息监控系统的集中管控平台中存储了敏感数据特征库等信息，该部分信息的数据安全也较为关键，应加强对系统存储的敏感数据特征库等信息的有效管控，避免因管理员和用户非授权访问而衍生出新的安全保密风险。

6 结束语

文本针对涉密环境下的非密办公网中敏感数据检测及监控措施较为薄弱的安全防护现状，开展敏感信息监控系统设计，通过安全防护手段有效检测并实时监控非密办公网中可能存在的敏感涉密信息，并采取技术手段对非密办公网与互联网之间的跨网敏感信息传输行为进行有效识别和阻断，从而确保非密办公网数据安全，避免非密办公网在运行过程中发生失泄密事件。