当前位置:首页 期刊杂志

通用型移动视听类应用监管平台研究

时间:2024-07-06

司凯威

国家广播电视总局二九三台 河南省 郑州市 451162

1 引 言

伴随着“移动优先”战略的实施和媒体融合步伐的加快,移动视听类应用呈现出节目数量多、更新快、类型丰富、操作简便、用户体验好等特点,成为人民群众收听收看视听节目的重要渠道之一。为抢夺市场和用户,广播电视机构、视频网站、短视频平台等机构不断加大软件研发与运营、内容生产与传播、节目宣传与推广等方面的投入,移动视听行业进入持续繁荣发展的新阶段。据中国互联网网络信息中心发布的数据显示,我国移动互联网网络接入流量在2021年达到2216亿GB,境内应用商店传播的APP数量达到252万款[1]。与此同时,移动视听类应用用户人数快速增长,覆盖范围不断扩大。以境内某短视频平台为例,用户规模达到9.34亿。

为引导行业健康发展和保障广大人民群众收听收看权益,国家广播电视总局颁布了《互联网视听节目服务管理规定》《专网及定向传播视听节目服务管理规定》等,要求运营者不得传播宣扬暴力犯罪、危害社会公德、损害未成年人身心健康等视听节目,为移动视听类应用规范化运营和监管指明了方向。

面对海量且快速增长的移动视听类应用,为落实加强技术监测和内容监管的工作要求,在前期研究移动应用商店和短视频平台监管系统的基础上[2-4],本文利用移动智能终端、工控机、服务器、镜像交换机等设备搭建通用型的硬件平台。采用移动智能终端控制、视听数据采集、节目内容识别、通信数据提取等技术设计智能化监管软件,解决海量移动视听类应用监管中遇到的数据统计工作量大、节目监看占用人员多、违规内容预警不及时、技术特征判别专业性强等难题,为准确掌握传播情况、内容、渠道、特点、规律和发展趋势提供数据支撑。

2 硬件设计

为满足对海量安卓和iOS视听类应用技术监测和内容监管的需求,利用移动智能终端、工控机、服务器、镜像交换机等设备搭建通用型的硬件平台。按照设备、功能等不同,该平台包括监管对象、控制与采集、存储与处理、用户服务等部分,如图1所示。

图1 系统结构示意图

2.1 采集对象

采集对象主要包括移动应用分享类网站、移动应用市场、移动应用商店和移动视听类应用程序。移动应用分享类网站主要指安卓市场、PP助手等论坛和下载类网站。移动应用市场和商店包括豌豆荚、华为等专门向公众提供应用程序下载、更新等服务的网站和程序。移动视听类应用程序主要指优酷、腾讯、央视频、快手等应用程序。为保护自身的数据安全和商业利益,相关网站和应用程序均设计有信息加密、反爬虫等安全策略,增加了数据采集和识别的难度。

2.2 数据采集

数据采集部分由工控机、智能终端、镜像交换机等设备和网络爬虫、模拟浏览器等软件组成,对采集对象进行控制和信息采集。

为控制多个移动智能终端获取视听数据,利用PCI转USB板卡和USB扩展器将工控机与移动智能终端进行连接。通过USB线缆传输重启、确认、返回、取消、滑动等操作命令和应用安装、更新、删除等控制命令以及截屏、录像、布局文件获取等采集命令。在智能终端接入平台时,需将每个智能终端的识别号保存至数据库中。

为捕获移动智能终端与服务器之间的交互数据,移动智能终端通过无线路由器、镜像交换机访问公共互联网。工控机通过镜像交换机实时捕获通信数据。

为防止因长时间采集特定内容而被监管对象识别和屏蔽,使用IP代理、动态修改定位信息等策略。

2.3 数据处理

数据处理部分主要包括任务调度、数据解析、图文识别、文字匹配等服务器,用于存储和处理应用程序、节目、图文等数据。

数据处理部分提供数据采集、数据解析、内容识别等服务。为提升设备利用率和承担临时任务的能力,利用vmware公司提供的私有云解决方案统一管理本地的计算、网络、存储等资源,降低设备采购和运营成本,提供更加弹性的资源配置策略,以适应临时增加的监管工作任务。通信服务器用于监控智能终端、服务器、程序的运行状态;IP代理服务器提供动态分配的IP代理资源;调度服务器通过资源的调度和管理,动态分配网络、存储和计算资源。为利用更加先进、成熟的文字、图像、音视频等处理算法,通过购买服务的方式,调用专业的数据处理引擎,完成特征提取、识别、计算等。

数据存储部分利用构建在多个存储设备上的HDFS文件系统和Hive数据仓库,存储图文、音视频、通信数据、应用程序等非结构化的数据,为后期的数据标签体系的设计,提供数据支撑。利用双机热备份的MySQL数据库,实现对结构化数据的管理。为确保数据安全,需定期检查数据的同步情况。

2.4 数据发布

数据发布部分主要包括发布服务器、防火墙、入侵检测等设备,提供安全可靠的数据发布服务。数据发布模块使用了高性能的数据发布服务器,并启用IP、账户等认证技术,确保内部数据安全。在系统中除了部署有杀毒中心、防火墙、入侵监测、接入终端管理等设备,严格限制外部用户的资源访问权限。

3 软件设计

在满足海量移动视听类应用的智能控制、采集、处理、存储等功能需求的基础上,按照分层、解耦等原则,将系统分为数据源层、控制与采集层、数据存储层、数据处理层、业务应用层,如图2所示。

图2 系统软件组成示意图

3.1 数据源层

数据源层包括安卓、iOS移动视听类应用商店和应用程序。移动应用程序数据来自华为、苹果等应用商店和安卓市场、机锋论坛等网站,包括链接、图片、评论、版本、下载量等数据。移动视听节目数据来自优酷、央视频、腾讯视频、抖音等移动视听类应用,包括直播频道、点播节目、EPG、弹幕、图片、文字等数据,具有数量多、更新快、格式不统一等特点。

3.2 控制与采集层

控制与采集层对安卓和iOS移动智能终端应用商店和应用程序的控制和数据采集。按照监管任务设定,从数据库中读取任务参数、终端信息、控制文件、页面参数等相关信息[5]。利用Adb、Ibimobiledevice等移动应用软件测试工具包,控制移动智能终端,下发安装、卸载、打开、切换、捕获、关闭等操作命令或页面捕获、截屏、录像等命令,实现对移动智能终端的控制。将捕获的XML布局文件按照对应的移动视听终端进行分类保存,并记录所在的版块、终端名称等信息。

利用pyshark调用wireshark捕获网卡的通信数据,并将相关的数据保存下来,利用指定的命令从通信数据包中提取IP、域名、下载链接、图片等相关内容,将相关的存储结果保存成数据文件,以供后期的处理和分析。

为了提升应用程序控制和采集的工作效率,使用多个智能终端进行同步的控制,并将相关的结果按照分类命名的方式进行记录。

3.3 数据存储层

数据存储层主要是用于存储应用商店、应用程序、视听节目相关的采集数据、中间数据、结果数据。

一是通过Pymysql等数据库支持包将终端控制信息、配置参数、任务、处理意见等结构化数据存储到mysql数据库中。为数据的长期分析使用,建立数据表之间的映射关系。

二是利用FastDFS文件系统对应用程序、图片、音视频、布局文件、评论、通信数据等非结构化的数据进行统一管理,解决海量数据的存储、管理、更新等方面的问题。通过节点统一管理的方式,提供更加安全的文件管理服务。借助Hive、HBASE等工具,对于主题化的数据进行统一的管理,进而方便后期的分析和管理,以形成一致性的数据处理结论。对图片、节目、应用等数据进行标签化的处理,便于后期的处理和分析。

3.4 数据处理层

数据处理层主要是解析、提取采集的图文、音视频、通信数据等文件,以获取传播情况、节目数据、违规内容、传播规律等数据。

一是利用xpath、lxml等工具和调用第三方提供的图片、音视频等算法接口,实现对图文等解析功能,获得节目名称、点击数、链接等相关内容。因各个视听类应用程序的布局不尽相同,在进行检测时,需要进行验证。针对于图片识别和音视频比对等需要较多计算资源的领域,直接调用某互联网企业的服务接口。

二是通过pyshark调用wireshark的数据分析函数,提取IP、域名、音视频等通讯数据信息。pyshark通过调用t-shark的命令接口,实现对通信数据包的在线和离线的解析,进而获取所需的文件信息。

三是利用异步的数据下载技术实现对图片、节目、应用等数据的下载,并通过文件名称标识相互之间的关系。

四是对违规内容进行识别,对文字、图片、数据等进行分级预警,形成一致性的预警机制,将之前的预警数据融合到现在的报警结果之中。

五是进行传播规律分析,提供EPG、合规性检查、传播规律分析等相关的数据检查机制,提供数据查询和管理的接口。对历史数据的离线分析,通过对数据的离线分析和比对,能够得到整体的传播情况和传播规律,并且能够发现预警情况。采用大数据的处理方式,对于海量视听数据的处理方式,能够对于传播情况、传播规律进行分析和处理。

3.5 业务应用层

业务应用层主要实现对节目传播情况、版本信息、节目内容、技术特征等数据的展示和参数配置。

一是系统提供各移动应用商店传播移动视听类应用的数量、版本、下载量、评论等基础信息,以便掌握重点应用的传播情况,推出的版本的情况,相互之间的关系情况,为节目传播渠道的研究提供技术支撑。

二是提供视听类应用程序的管理EPG信息、变动情况、重点节目、链接情况、评论情况以及APP等相关的分析和汇总功能。

三是按照预警等级,将违规账户、节目、标题、评论等相关数据推送给研判人员[4]。提供应用商店、安卓应用程序、苹果应用程序、节目预警、图文预警、系统预警。将相关的预警信息进行充分分析。研判人员只需要将精力用在预警信息的处理之上,能够对点播、直播节目的内容进行预警分析,对相关的节目进行分级管理,辅助研判员对于相关的内容能够更加全面的分析和研判,提高工作效率。

四是对技术特征情况进行验证,判别是否违反国家广电总局出台的相关规定,是否存在隐藏的节目链接等情况。

五是提供系统管理。对于处理结果进行分析和处理,能够及时了解和掌握附件和应用程序的情况。系统的整体运行情况,智能终端的运行情况,存储空间的占比情况,各个设备的运行情况,网络安全的运行情况,能够提供更加安全的数据管理功能。

六是能够提供大屏的展示功能。在系统管理模块中,可以对智能终端、应用程序、关键词、账户信息等资源进行动态管理[4]。以图表的形式展示平台的实际运行情况,提示值班员及时处理相关的程序和应用功能。

3.6 系统管理

系统管理层主要是提供对终端、服务器、任务、报告、日志、网络安全、外部系统等接口。能够对系统的软硬件的运行情况、数据库、服务器的运行情况进行统一的管理和维护,能够对系统的运行情况进行集中的管理和控制。

4 关键技术

4.1 移动智能终端集群控制技术

为使用一台工控机控制多个移动智能终端,使用PCI转USB板卡和USB扩展器连接工控机和移动智能终端。在智能终端第一次连接工控机时,读取系统给终端分配的标志,保存到设备参数表中,以备控制模块对指定终端下达重启、软件管理、滑动等操作命令。相对于通过无线网络的终端控制,通过USB线缆的终端控制技术具有运行可靠、操作简便、控制能力强等优点。

4.2 关键信息解析技术

为减少对图片识别文字识别功能的依赖和提升关键信息识别的准确性,基于点播节目、直播频道、应用程序等信息按照一定规则在移动应用商店终端上展示的事实,通过ADB命令获取XML格式的文件后,使用XML文档查找工具包XPATH进行数据提取。以提取某终端的节目名为例,输入“tv_names = driver.find_elements_by_xpath (r′//* [@resource-id="com.youku.phone:id/yk_item_title"]′)”,可实现对点播节目名的查找。该种数据解析方法具有配置灵活、操作简便等优点。

4.3 通信数据提取技术

为从通信数据包中获取网络协议、源IP地址、目的IP地址、URL链接等信息,本文借助pyshark远程调用wireshark,通过命令的方式,实现对网卡数据的捕获、存储、解析等功能,进而获取通信数据包中的视频地址、图片地址、文字信息等内容,实现网络层数据对获取,能够有效的避免被运营方发现和触发策略,实现更加有效的数据提取。

以提取http中包含的图片信息为例,使用“http.request.full_uri matches"http://.*.jpg.*"”,即可得到所有的图片下载链接,获得所有的图片数据信息。

4.4 视频文件异步下载技术

为在不触发反爬虫安全策略的情况下,获取移动视听类应用传播的图文、音视频等文件,本文利用python提供的异步模 块 ASYNCIO、AIOFILES、AIOHTTP_REQUESTS通过异步的方式在认证许可的时间内,下载相关数据到本地存储之中。相对于同步下载的方式,在速度方面具有明显的优势。

5 结 论

为提升海量移动视听类应用传播情况、版本信息、节目内容、技术特征等监管工作效率,本文利用工控机、移动智能终端、镜像交换机等设备搭建通用型的技术监测和内容监管硬件平台,利用自动控制、采集、处理、存储、发布等技术设计智能化的应用软件,解决传播渠道广、版本信息多、节目内容要求高、技术特征提取困难、传播规律分析难度大等困难,探索建立移动视听类应用监管新模式。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!