广播电视监播系统中音频及语音数据处理技术研究

时间：2024-05-04

王玉娇

（黑龙江工程学院黑龙江省哈尔滨市 150000）

为强化广播电视的自我管理能力，越来越多的管理部门，借助监播系统等现代化技术手段，完成对节目的记录、存储、查询等工作，掌握节目播出质量、广告内容，明确节目播出时间，评估节目制作水平，近些年来，我国广播电视产业获得了长足发展，频道增加，内容丰富，商业价值有所提升，监播系统在运行过程中承受到工作负荷日益增加，基于各种因素的综合性考量，广播电视管理部门积极与相关技术团队沟通，旨在通过新技术、新手段的引入，稳步提升监播系统的智能化、自动化属性，强化对音频、语音等数据的实时处理能力。

1 广播电视监播系统概述

广播电视监播系统功能与使用场景的明确，有助于技术人员形成完整的认知，准确把握广播电视监播系统应用实践定位，对于后续系统技术的升级等活动的开展提供了方向性引导。

广播电视监播系统作为自动化平台，其主要任务在于对广播电视节目播出过程中的声音、图像信号强度、节目内容、传输路径等进行全方位的监控，强化广播电视节目的自我管理能力，避免播出事故的发生。以北京盘古技术公司推出的LASS 智能监播系统为例，该系统借助超高精度DSP算法，对广播电视节目播出过程中的音频、语音等高效识别，从实际效果来看，该系统可以将音频、语音识别的时间周期控制在0.1 秒，较短的处理周期，无疑提升了LASS 智能监播系统的实用属性，使其可以快速完成各类音频、语音数据的识别。近些年来，广播电视监播系统在功能层面逐步完善，在各类通信技术、空间定位技术的支持下，形成了安全监测、质量监测、内容监测等更为多元的技术模块，形成了相对完善的广播电视节目管理技术机制。以质量监测模块为例，在GIS 技术的支持下，工作人员可以较为快速的对广播电视终端出现的停播事故进行快速的排查，明确事故停播的具体位置，通过结合视频、音频等数据的监测、汇总、分析以及评估，初步判定停播事故的诱发原因，通过后台及时安排人员开展电力抢修。监测系统的介入，无疑加速实现广播电视管理的智能化、可视化，对于节目播出质量的提升、节目内容管理能力的强化有着极大的裨益。例如北京博汇科技公司研发的Remote-Ares 广播电视监播系统，可以完成对不同频道载波、图像以及伴音信号的同时监测，其每个监测页面被划分为16 个独立的监测单元，能够将广播电视节目播出中的黑场、静帧、监测频段等直观呈现出来，便于工作掌握全面掌握节目播出中音频、语音数据的具体情况，一旦在监测过程中，发现异常情况，可以快速做出反应，保证节目播出的质量。同时，监播系统可以对广播电视节目、节目广告内的敏感词进行实时监测，消除了过往广播电视节目事后监管的滞后性。以广告播出为例，根据国家广电总局等部门出台的相关政策要求，就餐时间段内，禁止播出医疗用品广告，以免引起受众的反感。由于广播电视节目的广告内容较多，广告题材多样，仅仅依靠人工进行内容筛查，无疑难以达到预期的广告内容管控的目标。监播系统通过设置关键词等方式，对广告视频、音频等数据进行持续性对比分析，一旦发现广告中含有预先设置的关键词，及时发出预警，工作人员在接收到预警信息后，根据相关政策要求，进行广告内容、播出时间的调整，在确保广播电视节目收益的前提下，实现了广告的精准化、合规化投放。

2 广播电视监播系统音频及语音数据处理思路

广播电视监播系统音频及语音数据的处理，涉及多个技术领域，为确保相关处理技术的有序应用，消除监播系统处理音频及语音数据的技术漏洞，需要从不同的角度出发，进行必要的思路调整，以思路认知的调整为基础，引导后续相关技术的合理化应用。

2.1 广播电视监播系统音频及语音数据处理现状

现阶段，多数监播系统在对广播电视音频、语音数据处理过程中，主要借助于语音识别技术来完成相关的数据处理任务。语音识别技术其技术原理在于，利用信号处理模块、特征提取模块，将输入的音频信号进行持续性的特征提取，在通过持续性分析、提取音频矢量化特征，归纳音频矢量化规律，在此基础上，通过贝叶斯公式W=argmaxP(W|O)，完成音频模型的创建。借助音频模型，语音识别技术可以初步完成不同语音内容的判定。其在横向对比播出阶段，音频矢量化的差异性，判断节目播出音频是否存在问题，同时也可以通过音频矢量的相似度，确定节目是否播出[1]。这种语音识别技术具有较高的识别率，技术应用难度较低，成为目前主流的音频、语音数据处理机制。但是必须清楚的认识到，现有的语音识别技术，要求工作人员必须提前做好节目样本的制作以及矢量提取工作，工作环节的前置，在很大程度上限制了语音识别技术的应用范畴。当广播电视节目内容、广播播出版本发生变化时，如果没有提前进样本的获取以及矢量化音频特点的提取，将会大大影响语音识别技术的应用效果，无法按照预定目标，完成监播任务。同时广播电视节目往往会出现背景噪音，背景噪音的出现，会极大地破坏音频、语音原有的声学特征以及模型参数，导致语音播出质量的下降，这种情况下，语音识别软件受到背景噪音的干扰，无法快速识别音频矢量，也难以捕捉音频中的高频数据，进一步限制了语音识别技术作用的发挥，对于监播系统在广播电视管理环节中的应用也产生了限制作用。基于这种广播电视监播系统音频以及语音数据处理现状，在监播系统的升级、优化过程中，应当定向做好技术的升级，弥补语音识别技术应用环节中暴露出技术缺陷，强化监播系统对于音频、语音数据的处理能力。

2.2 广播电视监播系统音频及语音数据处理要点

基于现阶段语音识别技术的缺陷，广播电视监播系统在开展音频及语音数据处理过程中，应当针对性地做好技术升级等相关工作，通过技术体系的设置以及优化，稳步提升监播数据对于音频信号的识别、管理以及处理能力。为满足上述使用诉求，技术人员应当对现有的监播系统应用程序软件做出相应的优化调整，利用算法优势，形成一套综合音频信号监测、观察编辑、语音处理等各项功能的软件平台。考虑到音频及语音数据处理软件开发成本以及研发周期，技术人员可以着眼于实际，在充分掌握语音识别技术优势与不足的前提下，通过结构优化，将语音识别技术嵌入到监播系统之中，实行内置化的语音识别机制，降低监播系统的功耗，增强语音识别能力。除了进行必要的内置化处理外，技术人员还需要对语音识别软件的工作方式进行调整以及改进，通过这种方式，控制语音识别技术应用过程中的误报率，尤其针对于背景噪音较强的环境，可以尝试利用各类仿真算法，对语音数据、音频数据等进行预处理，在此基础上，语音识别技术开展优化识别，以确保识语音、音频数据的处理能力。

3 广播电视监播系统音频及语音数据处理策略

广播电视监播系统音频及语音数据的有效处理，要求技术人员在充分调整技术思路的前提下，以科学性原则、实用性原则为先导，整合现有的技术手段，着眼于监播系统的功能定位，有目的、有计划地推进广播电视监播系统的完善，旨在发挥其语音识别、音频处理方面的技术优势。

3.1 明确监播系统音频与语音数据处理基本流程

基于广播电视监播系统音频及语音处理的基本思路，技术人员在针对性地开展软件框架构建、硬件体系优化的过程中，应当率先进行监播系统工作流程的优化设置，在确保监播系统运行效果的前提下，压缩处理周期，精简处理环节，以有效解决监播系统在语音识别、数据处理过程中存在的问题。综合考量各类因素，监播系统运行过程中应当涵盖音频采集-语音文件存储-矢量化分析-算法识别-数据库存储-监控信息输出等几大步骤，完成音频以及语音数据的获取，处理以及应用等系列操作[2]。具体来看，监播系统在运行过程中，应当借助传感器等设备，将广播电视节目信号，通过录制卡板汇总到预定的磁盘阵列之中，并根据信息来源的不同，分别进行相应的格式转换，例如电视节目中的音频信息转换为MPEGF4 格式的文件进行存储，广播节目的音频信息则转换为WAV 格式的文件进行存储，数据格式转换完成后，利用音频识别技术，完成音频、语音数据的矢量化特征提出，生成相应的矢量化文件。为保证语音识别的精准性，技术人员应当调整思路，着眼过往语音识别技术在抗干扰性、实时性等方面存在的不足，借助仿生学等十倍算法，对语音数据进行矢量化对比，对比结果存储到有关数据库之中。完成上述技术流程后，监播系统软件程序可以根据工作人员的操作指令，对数据库内的各类信息数据开展编辑以及调用，生产相应的监播信息，并反馈给工作人员，工作人员以反馈信息为参考，结合广播电视节目播出要求，对音频、语音等进行相应的处理。

3.2 优化监播系统音频与语音数据处理软件框架

3.2.1 音频与语音数据处理软件基本结构

考虑到广播电视监播系统的运行环境以及功能定位，为达到语音识别技术内嵌、仿真算法综合应用等技术目标，技术人员尝试利用VC++语言的开发模式，在监播系统内形成NCTAudioEditor2 ActiveX 动态链接库，依托动态链接库自身强大的兼容性以及接入能力，逐步形成完备的监播系统音频、语音数据处理技术机制。实际的技术操作环节，技术人员借助VC++语言，实现多元化语音、音频格式的快速转换以及编辑处理，作为成熟的技术模式，VC++语言能够将广播电视语音、音频等播出内容进行分割处理。相关语言编程为：

通过这种编辑语言的合理化应用，可以在软件系统内部形成完整的音频数据筛选、识别机制，对于广播电视节目中音频、语音中含有的错误数据，快速发现，并针对错误数据，做好差错数据的提出，实现音频、语音数据的有效编辑。同时技术人员还可以根据用户的节目收听习惯，筛选节目关键词，利用VC++语言将关键词录入到软件框架内，使得软件程序具备较强的音频、语音数据内容筛选能力，辅助语音识别技术更好地完成内容确认工作。针对于特殊情况下，广播电视音频、语音数据需要修改的情况，VC++语言可以针对性地进行数据完善，确保内容播出的效果。

3.2.2 音频与语音数据处理软件功能优化

在VC++语言的支持下，技术人员可以完成对NCTAudio Editor2 ActiveX 动态链接库这一监播系统音频与语音数据处理软件核心功能的设置，使其具备较强的音频与语音文件的识别、编辑以及管理能力。为更好地发挥其技术价值，技术人员在软件框架搭建完成后，还应当针对性地开展功能模块的设置、优化等系列工作。在音频文件编辑功能模块设置环节，可以借鉴绘声绘影、爱剪辑等软件的布局方式，形成文件打开、新建、保存以及另存为等基础性功能，同时针对于音频与语音数据的处理需求，增加剪切、复制等相应的功能，通过简单地功能设置，既可以确保音频与语音数据的处理效果，又可以简化软件操作流程，降低操作难度。考虑到广播电视监播系统运行过程中，针对于电视节目、广播节目会生成不同的格式的音频数据，因此在音频文件编辑模块内部，应当设计相应的信息推送模块，提示音频信息基本状态、音频文件的名称、音频文件的格式、文件总帧数等相关信息，便于音频文件的识别以及处理[3]。对于错误处理的广播电视音频文件，应当做好文件撤销模块、恢复模块的布局，使得技术人员在错误操作后，可以利用软件的撤销、恢复功能将处理后的音频文件恢复到相应的状态，便于进行二次的加工处理。从实际效果看，这种音频软件编辑功能的打造，较好地满足现阶段，监播系统对于音频、语音数据的处理要求，使得数据自身的可编辑属性大大提升，强化了监播系统在广播电视节目管理中的技术价值与实践作用。广播电视监播系统音频文件播放功能模块设置过程中，要求该功能模块可以根据实际需要，快速完成音频文件内容的播放、暂停以及终止等功能，便于后续广播电视音频、语音数据的二次管理。为达到这一技术诉求，在音频文件播放功能优化过程中，确定定位标线，标线确认后，音频即开始播放，定位标线的位置可以根据实际的数据处理要求，进行随机确定。考虑到音频文件播放过程中可视化的要求，技术人员可以对不同进程中的音频文件状态采取差异化的颜色表示，例如定位线区域为黄色，表示音频文件正在播放，尚未播放区域则设置为红色，并随着时定位线的移动，红色区域逐步减少，监测系统根据颜色占比的变化，适时向工作人员推送提示信息，避免出现错误操作的情况发生。音频文件的暂停功能，应当在接收到音频文件停止操作的指令后，快速停止音频文件的播放，还可以增设录音功能，录音功能的加入，使得音频播放过程中，技术人员可以根据实际的播放情况，采取应急处理方式，对音频文件进行简单的修正，以确保广播电视音频、语音文件播放质量。监播系统音频与语音数据处理软件系统，在做好音频播放、音频编辑功能模块设置后，为准确把握音频与语音数据的基本属性，快速查看文件内容。还应当从实际角度出发，进行文件内容查看功能的设置，增设文件查看模块。根据过往经验，监播系统运行过程中，技术人员往往关注于音频文件中某一部分的内容，在软件的主界面中，由于音频文件数据较多，对局部文件的属性特点难以开展细致分析，所有需要利用相应的技术手段，将特定区域进行放大处理，便于数据文件特性的分析。基于这种技术诉求，技术人员可以在软件内部采取波形图、波谱图的方式，对音频文件的局部内容进行呈现。功能设置环节，技术人员在软件操作界面设置屏幕放大模块，在点击放大模块后，可以将目标区域文件内容放大，放大的倍数，技术人员可以根据观察需要进行灵活选择，实现文件细节的进行科学呈现。除了进行文件放大之外，为满足全方位、整体性的音频文件管理，还应当设置屏幕缩小功能，将目标文件通过缩小功能，放置于上一次操作的状态，进行音频文件的整体性分析。在文件内容放大或者缩小的功能模块支持下，技术人员可以根据监播系统的运行要求，将音频、语音数据进行总体性处理，实现文件内容的定位，便于后续音频文件内容修改工作的开展。在音频文件放大或者缩小功能的支持下，音频文件内容修改功能得到充分的实现，修改技术模块设置环节，应当做好音量放大、音量缩小、左侧消隐、右侧消隐、上下颠倒以及左右颠倒等功能，通过上述模块的设置，使得技术人人员可以根据监播系统的运行要求，完成音频数据、语音数据的科学修正。

3.3 构建监播系统音频与语音数据处理硬件体系

广播电视监播系统构建环节，为了更好地配合软件程序开展相应音频、语音采集、处理等工作，技术人员在做好软件框架优化工作的基础上，做好硬件系统的配备以及优化等相应工作。具体来看，硬件系统应当包括计算机、磁盘阵列、信号转播器、数据采集卡板、矢量化卡板、数据库等硬件模块。随着广播电视节目数量以及节目品质的提升，技术人员应当定期做好计算机的硬件升级工作，作为监播系统软件程序的主要运行平台，计算机必须在内存、运存、兼容度等参数上具备较为明显的优势，为软件程序的运行提供必要的硬件支撑。从过往经验来看，监播系统音频与语音数据处理软件对于计算机的运行内存占用率较高，并且多数处理软件处于24 小时的持续监测状态，长时间、不间断的运行，使得计算机的散热模块以及功耗控制模块承受巨大的负担，无形之中，缩短了计算机的使用寿命。为应对这种局面，在计算机的采购过程中，除了要进行内存的扩充之外，还需要对计算机的散热模块、功耗模块做出相应的调整，稳步提升计算机的散热能力，减少单位功耗，为监播系统音频与语音数据处理软件的运行营造良好的硬件环境。同时在监播系统磁盘阵列、信号转换器、数据采集卡板、矢量化卡板的选型过程中，应当注重不同硬件之间的匹配度，例如磁盘阵列在安装过程中，应当根据计算机自身的硬盘分布特点，在进行合理的空间布局的基础上，还应当根据软件框架，必要的功能性划分，以确保磁盘阵列服务对象的针对性，避免磁盘阵列在使用过程中，出现存储空间浪费的情况，影响后续的使用效果。由于广播电视监播系统特殊的运行环境，数据库在构建环节，技术人员除了按照常规性的技术标准，进行数据库的结构搭建之外，还需要充分利用大数据等技术手段，对数据库内的音频、语音数据进行深度挖掘，逐步形成音频、云因数据的应用体系。在借助大数据技术对音频、语音数据完成综合性处理的同时，技术人员还应当对计算机终端的信息反馈界面做出相应的布局，以确保各类数据信息的直观化呈现。例如，在计算机终端内设置监测模块、历史数据模块等不同的功能分区，工作人员根据工作的需要，访问监播系统终端的有关模块，获取相应的数据信息，完成广播电视音频、语音数据的获取，并根据获取结果，采取针对性的举措，对节目播出信号、播出频道等作出调整，实现广播电视播出效果的全面提升。

4 结语

新媒体时代背景下，广播电视的受众群体、节目播出形式发生了深刻变化，为保持自身的社会影响力与商业价值，确保节目制作能力始终保持在较高的水平，需要在各类节目制作、播出的过程中，利用监播系统等平台，实时掌握节目播出状态，并根据节目播出效果，及时调整播出参数，以确保节目的观赏性，满足不同受众的资讯获取需求。