基于音视频的自动化低成本VR视频生成方法分析

时间：2024-05-04

王天炀

（徐州工业职业技术学院信息工程学院江苏省徐州市 065000）

在2016年1月的国际消费电子展（CES）上，与虚拟现实（VR）相关的展品在虚拟现实（电子展）上如火如荼地展开，德国以及其他国外VR长都会展出大量的虚拟现实VR设备，硬件设备不断更新及客户的需求不断提升，着推动了VR产业的发展，使得生态VR产业链变得更加丰富，同时在一定程度上降低成本。

1 背景

1.1 VR视频概念

虚拟现实（Virtual reality, VR）视频又称全景视频或360视频反馈，是一种使用虚拟现实硬件播放的视频作品[1]。虚拟现实技术最重要的是它模拟了计算机的仿真技术，而计算机仿真技术就是要建立虚拟场景，然后通过虚拟技术实现现实虚拟，模拟现实世界的运动。用计算机模拟技术构建的虚拟场景可以是现实中的真实场景，也可以是完全虚化出来的场景。有许多不同的可能性，从不同的角度描述虚拟现实，但其中一个最重要的共同点是，虚拟现实可以通过不受时间和空间控制的虚拟环境，为用户创造一种交互式、沉浸式的临场感体验，这个共同的特点也是VR视频最大的特点。

因此，本文提出了一种利用现有的视听资料制作虚拟现实视频的新方法，结合自然语言处理、三维建模、虚拟现实等技术[2]，本文主要从以下几方面展开探讨：

（1）通过系列化的标准步骤以及较为完整的自动转换操作，不需要过多专业计算机知识也能生成VR视频；

（2）将摄影机录制的VR视频与运动相机所录制的视频进行对比，不但可以节省技术成本，同时也能缩短时间，从而在短时间内制作出大量视频作品；

（3）针对那些历史悠久或是视频像素较差的，这种方式也能轻松将视频转换成VR视频。

1.2 VR视频生产方式

VR视频制作过程包括多种现代成像技术，其中就包括计算机仿真技术、图形切割技术、实时三维技术、人工智能技术等。虚拟现实视频制作可以有两种制作形式，第一种就是利用全景摄影机进行全景录制视频和制作视频；第二种就是使用CG技术制作成三维建模所需视频，从而生成VR视频。

1.2.1 全景摄影机拍摄视频

拍摄虚拟现实视频需要用到全景摄影机也可以称为多镜头摄影机对图像内容进行全方位的拍摄和拼接，本文中的VR视频制作多镜头系统制作全景视频可以分为三个不同阶段：就是将摄影机标定，将图片进行同步和融合，从而生成视频流。摄影机拍摄的虚拟现实视频可以分为全景交互视频、局部3D视频、非全景视频以及VR全景视频这五种，这五种VR视频制作差异化逐渐减小，体验效果也逐渐提升，在这五种中，全景3D视频具有良好的沉浸效果和互动效果，在这种视频中用户可以参与到视频中，在视频中用户可以与历史场景进行交互，而视频内容也会根据用户选择而做出不同反应，从而改变视频发展动向，这种全景3D交互视频可以真正让客户体会到身临其境的感觉。VR视频制作一直都是难点，不管视频是否交互，或是什么场景交互，怎样进行交互，这些都是制作VR视频的难点，除此以外，全景3D视频制作所需周期较长，制作成本较高，在短时间内无法制作出大量成熟的视频。

1.2.2 利用计算机图形技术生成VR视频

CG技术制作的VR视频和3D动画版本的VR视频较为相似，通过充分使用映射、渲染等手段，它的视觉效果基本上与全景摄影机所拍摄的视频没有差异，通过与全景摄影机拍摄出的视频对比，CG技术制作出的VR视频更容易控制视频节奏和工作速度。这种技术并不需要那些昂贵的设备以及专业摄影师的支持，同时也解决了一些创作难度较大的问题，其一就是对于构建和设计虚拟场景来说，所需要的内容脚本和希望表达的中心思想都需要具有创造力的人才；其次，虚拟场景多数是制作出具有角色模型的物理动画人物，这是通过运动相机实景录制的，录制装备不仅价格较高而且操作起来较为繁杂，这种设备需要非常专业的技术人员，同时需要他们熟练掌握技术，在一定程度上提高了制作虚拟现实视频的门槛。

1.2.3 生成VR视频面临的挑战

在已经存在的虚拟现实视频制作基础方，想要寻找一个新型的低成本、高质量制作视频的方法无疑是一个挑战。较为复杂的制作视频过程在一定程度上降低了制作视频内容的效率，例如全景视频制作过程就包括了教学设计、脚本设计、实景拍摄以及后期制作等多个步骤，无论是哪种拍摄制作全景视频都需要大量硬件设备支持，这不但增加了制作成本，同时也提高了对于摄影制作技术的要求，更重要的是这对视听图像以及录制音频都有重要价值。

2 研究方案

2.1 工作流程

文中所提到的制作多媒体视频和转换音频成为虚拟现实视频的方法可以有以下几种：

（1）可以利用相关语音识别工具将视频或是音频中的信息提取出作为文本信息；

（2）可以用自然的语言处理方式获取具有情感的文本信息；

（3）在虚拟三维场景中采用文本、音频、说话人角色模型、人体运动动画生成虚拟现实视频。

2.2 语音识别获取音频字幕文件

VR视频转换中最重要的一步就是将视频中信息进行文本化操作，从视听资料中获取字幕文件，在选择语言识别软件时，要保证一定的语言识别准确性，同时要以方便获取语言字幕文件为出发点[3]。

现今市场中已经存在较多成熟的语音识别系统和识别软件，如iFLYTEK、微软语音SDK等，通过对市场上几种语言识别软件的测试和比较，本研究假设免费智能视频翻译软件，软件的智能性体现在能力上自动分割语音轴，识别字幕内容和语言信息，最后只要一键就能将文本轻松导出成为字幕文件，翻译软件需要设置简单明了的操作界面，将功能设置进行细化区分，让初学者也能轻松操作，软件应该具有较高的声音识别精准度，所导出的字幕文件应该包含不同的文本时间信息，同时使软件满足更多人需求。

2.3 通过语言处理技术获得文本信息

2.3.1 文中所提获取文本信息方法

自然语言文本转换信息已经占到信息总量的八成，文本信息分析和信息处理都处于语言处理的范畴内，现如今的语言处理研究方式分为两种：第一种就是现今较为流行的以数理统计机械性学习的方式，第二种就是在传统语言处理基础上进行自然语言处理工作，使用的方法应该按照实际的工作情况而定。

本文提出了一种自动化、经济高效的虚拟现实视频转换方法，它是减少人工操作、节省时间和人力成本的出发点之一，本文之所以讨论短语相等而不是文本相等，因为语言识别中的字幕文件都是作为字幕形式出现，语音分析也要根据句子的难易度进行区分，将句子词级进行对比处理，可以更进一步降低文本情感分析的难度。

2.3.2 将情感词典作为基础获取文本情感标签

通常情况下，人们都会将情绪化语言作为表达自身观点与想法的表现形式，例如说“优秀”可以作为表达鼓励人们的积极想法，而“差”则是可以表达否定的想法，这种形式是最为直接简单的表达情感的方式。因此，我们可以根据句子中的感情词来粗略判断句子的情感类型，并为所有领域建立一个完整的情感词典。虽然感情词的内容形式较为复杂多样，但是人类情感的基本分类是一致的。例如，人类的情感无非是喜、怒、悲、喜，本研究以大连理工大学中文情感呕吐本体数据库作为情感词典进行情感分析。

2.3.3 处理字幕文件中的时间轴标签

打开字幕文件后进行音频转换，可以看到每一句话。它包含一个文本序列号和一个时间线标签，我们将这三个元素视为一个字幕元素，在上一节中，通过自然语言对字幕中的文本进行处理，提取文本的情感日，在这一节中，将时间轴的名称处理成字幕元素，得到每个句子的时差。最后，SRT字幕文件被转换成可以以单位处理的字幕文件。

2.4 情感动画的匹配

2.4.1 构建角色动画以及场景模型

在文本匹配和制作动画之前，应该建立相应虚拟场景、角色模型及运动动画。在本研究中，使用3dsmax对角色动画进行建模，场景模型是在unity中建立的。3ds Max是最常见的三维建模，世界动画和渲染软件。使用3dsmax建模可以分为三个步骤：第一，对于简单的几何图形，使用3dsmax的内置图形库非常方便；对于复杂图形，通常采用NURBS面片造型或多边形造型；第二，构建模型所需材料就是模型的外观。在3D全景视频中，一般采用纹理作为模型材质，但是这些材质通常可以利用其它软件进行处理，对模型进行微调、最终细化，包括设置相机位置、设置视角和反射模型等，在完成一系列操作后，将模型更改并发布为TGA序列格式在建立模型和场景后，下一步是在单元VR视频中生成模型、音频、字幕和动画，对于分割视频，本文的方案是分割全景图像，从而实现将视频制作成全景展示，这种制作方式还是和以往有所区别的，本文中主要是针对视频元素展开讨论，而不是视频中的帧速。

2.4.2 将字幕、音频、角色、情感动画进行匹配计算

在3D制作软件中导入字幕文件、音频文件、角色模型等相关文件，利用软件算法可以设计出相应所需的虚拟场景和原始的语言场景，这和传统的视频制作相似，软件生成的VR全景视频是相对较为完整的视频，其中包好了人物、字幕、音频等内容。因为字幕是通过语音文件转换生成的，所以可以确保字幕与语音内容的一致性，这也是软件算法的关键点。字幕和语音应该在同一时间出现，字幕所表达的内容也应该与人物肢体动作一致。

在播放视频音频时，软件主程序应该显示出文本字幕内容，之后在软件进行短时间等待后再展示下一个字幕文本。两个文本字幕应该有短时间的时间差，同时应该使用合适的情感标签和人物肢体动作算法，从而将字幕内容和人物肢体动作、语音内容等进行一致化处理。