数据多维分析在传统电视媒体融合发展中的运用

时间：2024-05-04

匡雪

（中央广播电视总台北京市 100038）

1 引言

自人类社会进入移动互联网时代以来，基于移动互联网的新媒体如雨后春笋般不断涌现。借助新媒体技术，内容发布者能够将信息以更高效快捷的方式推送到用户终端。新媒体技术的出现，不仅降低了传媒行业的入门门槛，同时也面向媒体运营方提供了一系列高价值的工具，使得传媒运营拥有了更多助力。OLAP 联机数据处理是一种面向海量数据进行分析的工具。在传统电视媒体中，要获得与运营和观众相关的信息通畅需要主动发起调研活动，对新媒体而言，智能终端就可以为媒体运营者提供包括用户信息、位置、偏好等一系列的运营数据，其数据获取的渠道更广泛，数据采集更简便，这就使得媒体运营者能够更轻易获得远超出传统媒体环境下的数据量。在传统媒体尝试与新媒体融合发展的今天，诸多传统电视媒体也逐步将业务迁移到移动互联网上，借助自主研发的新媒体平台或第三方新媒体平台，传统电视媒体也在新媒体领域生根发芽。在这一背景下，传统电视媒体同样能够通过积极利用包括OLAP 在内的一系列新媒体工具，为自身发展提供支撑。本文就将从数据多维度分析角度，探讨新媒体技术在传统电视媒体发展中的运用。期望本文的研究能够对传统电视媒体在新媒体融合发展环境中的运营和发展提供助力。

2 相关技术与应用

2.1 传统电视媒体与新媒体融合发展的方式

信息技术的发展，使得诸多传统电视媒体也逐步意识到新媒体的价值。新媒体主要依赖移动互联网和智能终端，通过碎片化、移动化场景对外进行媒体传播。相比于传统电视媒体，新媒体能够更灵活、更广泛。对传统电视媒体而言，要进行新媒体融合，利用新媒体技术进行自身传播的革新，主要有如下几种典型方式：

2.1.1 基于广电机顶盒的数字媒体应用

随着广电网络数字化传播的开始，以央视及各省级卫视为主的传统电视媒体开始尝试通过网络进行新媒体节目运营，借助网络进行高清频道、特别频道的运营。借助广电网络自身的数据采集能力，各传统电视媒体可获得传统模拟方式内容提供情况下无法获得的诸多用户数据，同时也可以尝试更灵活的互动方式。

2.1.2 基于自媒体平台的新媒体应用

以抖音、微博、微信视频号、微信公众号、小红书为典型代表的新媒体平台已经成为了线上流量大户。各传统电视媒体逐步开始在各大自媒体平台开设帐号，通过制作特别节目、设立互动活动、线上直播等方式，将自身传播范围进行进一步拓展。在上述平台，传统电视媒体也正在通过提升内容的趣味性和互动性，吸引自媒体观众的兴趣。通常自媒体平台也具备详细的运营数据给内容创作者。

2.1.3 自建自媒体平台及其应用

以央视频、封面新闻为代表的中央和地方媒体，也基于自身业务发展需要，尝试自建自媒体平台，提供包括直播、短视频、实时新闻、媒体互动在内的诸多自媒体服务，收到了较好的反馈。特别是央视频，目前已经成为国内官方媒体纷纷效仿的新闻媒体传播模式。

2.2 多维数据模型与OLAP

基于上述新媒体传播渠道和平台，传统电视媒体可获得诸多维度的数据，包括用户数据、兴趣数据、运营数据等等。基于这些数据可以构建多维数据模型，并应用OLAP 相关技术，进行进一步的价值挖掘。

2.2.1 多维数据模型

对复杂的数据而言，要进行和数据的进一步分析，通常需要对其进行数据建模。常见的多维数据模型有星型模型和雪花模型。

2.2.1.1 星型模型

星型模型是最常用的关系模型，通常通过一个事实表和多个维度表对信息进行组织和描述。通常情况下，星型模型中存在一定程度的数据冗余，这是为了提升对数据的利用效率。典型的星型模型如图1 所示。星型模型对非专业人员也同样很好理解，同时可提供更低的数据仓库构建门槛。但其劣势也显而易见：数据冗余、操作缓慢、多维联合处理效率低。

图1：星型模型

2.2.1.2 雪花模型

雪花模型是一种进一步升级和规范的，具有更高层次维度的模型。但在雪花模型中并非所有维度表都会与事实表进行直接关联。分支维度表是通过一级维度表与事实表进行关联。其优势在于能够显著降低冗余，劣势则是数据查询效率降低。

2.2.1.3 OLAP

OLAP 是大数据分析最常用的技术之一，也是新媒体环境下数据分析的典型方法。该方式能够加快数据共享速度，提升共享效率，便于高效分析。OLAP 典型的数据操作主要有：

（1）钻取：即通过调整分析方向和跟踪方式，对维度和分析的程度进行调整。

（2）切片与切块：当选定维度和值后，可以对其他维度上的数据存量进行分析，若剩余数据仅存在于两个维度，则可认为是切片，否则可认为是切块。

（3）旋转，即将维度的方向进行改变，在数据的实际处理中就是对表格进行行列变换，以适应数据关联分析的操作。

3 传统电视媒体融合发展中数据多维分析的基本需求

3.1 传统电视媒体融合发展的数据来源与种类

3.1.1 广电网络机顶盒数据采集

图3：基于Kylin 的数据分析时序

目前传统电视媒体节目通常是借助广电网络、电信、移动等机顶盒，以数字化方式对观众提供。这就使得上述数字渠道运营方能够对观众基本信息（地理位置、用户性别、年龄、家庭成员）、观看习惯（观看时段、观看喜好、观看时长）、广告投放效果（广告展现量、广告播放率和跳过率、广告喜好）、节目收视率等等信息进行精准捕获。

3.1.2 自媒体平台数据提取

目前各类自媒体平台均提供了数据导出和分析业务，以供内容发布者和媒体运营者掌握运营数据。能够获得的信息相对于来自广电数字媒体渠道更广泛和细致，自媒体平台已经可以精细到个体数据。

3.1.3 调研数据

调研是传统媒体在卫星电视和模拟电视时期最常用的方式，通过问卷调研可以对观看时间、观看习惯、收视率等进行调研。尽管该方式数据样本量较小，但也可以视作基础数据来源之一。

3.2 数据多维分析应用需求

对前文提到的诸多不同来源、不同细致程度、不同结构的数据，数据的多维分析提出了如下几点应用需求。

3.2.1 数据管理

对上述数据的管理是数据多维分析的基本需求。通过提供数据的新增、修改、删除、转译等功能，为外部用户提供数据的基础管理功能。管理的目标有Impala 数据、Kylin 数据以及主题Cube 数据，其中Impala 和Kylin 分别用于应对不同的数据存储类型和场景，而主题Cube 数据则主要用于对数据的配置信息进行存储。例如来自客户端的上亿条单日数据，可通过Kylin 进行存储。而千万级数据则通过Impala进行存储。

3.2.2 多维数据分析

多维数据分析是核心业务。以客户端基础事件分析为例，其主要关注UV 和PV，并从宏观角度对来自新媒体渠道的数据进行基础量级的分析。而用户数据分析中还存在活跃用户数等关键业务指标，其也是通过海量历史数据，对用户进行追踪和多维度分析后，获得用户的历史活跃度。

3.2.3 数据可视化展示

数据可视化是数据分析的最终呈现渠道之一。对于部分数据可通过详细报表进行展现，但对于发展趋势、数量、类型组成、概率等数据，通过可视化图标更便于直观展示。

3 传统电视媒体融合发展中数据多维分析研究与应用

3.1 数据多维分析架构设计

根据对数据多维分析的基础设施和软件组件需求可知，该技术应用建立在Hadoop 及其附属设施之上。同时为保障分析业务的进行和系统基础数据存储，需提供业务管理子系统，以及基础数据采集和存储层。最终形成的系统架构如图2 所示。

图2：数据多维分析架构

3.2 媒体核心数据分析关键业务设计

媒体核心数据分析中，数据管理、数据分析和数据可视化是三大核心业务。

3.2.1 数据管理

数据管理部分实际对Impala 数据、Kylin 数据以及主题Cube 数据进行增加、修改、删除等操作，其管理本质就是对系统的数据分析所需的数据源进行管理和对接。

（1）Impala 数据管理

Impala 是一个处理PB 级别数据量的高性能关系查询引擎，其基于Hive 进行构建。由于HDFS 中的数据无法直接利用MapReduce进行计算，而服务可对整个数据块进行访问。因此可通过在Hive 中构建一个Parquet 中间表，将数据导入到Impala 中，最后通过Hue 进行处理和交互。这也就是对Impala 数据进行管理的核心思路。

（2）Kylin 数据管理

Kylin 是一个基于Cube 快速立方体算法的数据分析模式，其可以支持百亿规模的数据的亚秒级查询。Kylin 实质上也是支持Hive 数据源，因此对Hylin 数据进行管理，实质上就是对Hive 上的数据集合进行管理。

（3）主题Cube 数据管理

主题Cube 数据的管理实质上是一种业务数据和配置信息的管理。其本质是对业务数据库中的主题Cube 数据进行新增、修改、删除、授权等操作。由于主题Cube 数据包含数据源信息、数据维度、主题信息等分析的核心配置信息，但其本身数据量较小，因此可以用传统的关系数据库，将其视作普通的系统业务数据进行存储。

3.2.2 数据分析

数据分析部分，以新媒体客户端基础事件和用户活跃度分析为例进行研究，上述两分析业务分别对应不同量级的数据分析，相对较为典型。

3.2.2.1 客户端基础事件数据分析

客户端基础事件数据量高达亿条以上，因此适合使用面向更大量数据的Kylin 进行分析。在进行基础时间分析时，首先需要通过权限控制获取操作权限。此后针对所分析的数据的维度和度量进行选择，确定本次分析的目标。此后通过数据调用接口，调用Kylin 查询数据业务。当查询完成时，结果将被封装成为数据结果集，并进行层层上报，最终通过可视化页面进行页面展示。在分析过程中，针对细致到用户地理位置、网络接入信息、开启方式、喜好等海量基础数据，借助Kylin 分析可实现海量数据多维度分析，甚至可通过A/B 测试，对灰度发布的媒体客户端或媒体信息进行价值验证。这能够为新媒体融合下的传统电视媒体运营提供较坚实的决策支撑。

3.2.2.2 用户活跃度分析

用户活跃度数据量级显著少于客户端基础数据，其量级大约在千万级，因此可以选用Impala 作为数据存储手段。以央视频为例，要获知PV、UV、单视频曝光量、点击量等，或要分析用户活跃度时，可在鉴权完成后通过选择所要分析的维度和度量，并通过controller 作为代理，访问Service 提供的Impala 接口，最终获取到Impala 的数据，并借助前端页面进行结果展示。

3.2.3 数据可视化

数据可视化的实现主要依赖数据格式的解析和可视化组件的应用。在上层应用中，解析和可视化组件调用均被封装在主题Cube 中。通过手动选择维度和度量，并选择数据范围和数据源，主题Cube 可根据上述配置对指定可视化模块进行调用，并对数据进行填充，实现数据可视化。特别地，在可视化部分实质上也可以提供表格数据表导出，以提供可供二次分析的数据报表。数据可视化的处理流程如图4 所示。

图4：数据可视化及导出流程

4 结语

在传统电视媒体积极践行新媒体融合的今天，诸多新媒体技术能够为传统电视媒体的运营和发展带来新的契机。本文所探讨的面向媒体的多维数据分析技术，不仅适用于拥有新媒体渠道的传统媒体，同时也适用于基于广电网络、新媒体平台以及自建新媒体平台的传统媒体融合场景。基于Kylin 和Impala 两种数据存储类型，运营者可以针对获取到的海量用户和运营数据进行二次挖掘，并借助可视化工具进行决策。期望本文的研究能对传统电视媒体在新媒体工具中的应用提供一些启示。