当前位置:首页 期刊杂志

结合时序网络和金字塔融合的稳像修复方法

时间:2024-09-03

刘 清,李世超,王文杉,师文喜,成科扬

结合时序网络和金字塔融合的稳像修复方法

刘 清1,2,3,李世超1,2,3,王文杉4,师文喜5,成科扬1,2,3

(1. 江苏大学计算机科学与通信工程学院,江苏 镇江 212013; 2. 江苏大学网络空间安全研究院,江苏 镇江 212013; 3. 江苏省大数据泛在感知与智能农业应用工程研究中心,江苏 镇江 212013; 4. 中国电子科学研究院社会安全风险感知与防控大数据应用国家工程实验室,北京 100041; 5. 新疆联海创智信息科技有限公司,新疆 乌鲁木齐 830001)

针对视频稳像领域内视频图像缺损填充效果不佳,严重影响视觉效果,且导致稳像处理后的视频不稳的黑边填充问题,提出了一种基于时序网络预测和金字塔融合的图像修复方法。首先结合预裁剪机制自适应判断当前帧是否需修复;然后将截止至当前时刻的所有帧送入卷积神经网络(CNN)和门控循环单元(GRU)的模型进行待填充部分的预测;随后采用改进的加权最佳缝合线进行拼接并在高斯拉普拉斯金字塔中进行图像融合重构;最终在重构完成后裁剪尺寸。实验结果表明,该方法平均峰值信噪比(PSNR)相较于对比算法提高了2~5 dB,平均结构相似度(SSIM)较对比算法提升了约2%~7%。该方法修复后的视频缺损填充自然,视觉效果较为稳定,即使在黑边面积较大时也有良好的修复效果,可用于多种摄像平台及不同场景下。

视频稳像;视频图像修复;时序网络;金字塔融合;最佳缝合线

随着视频采集设备在生活中的广泛使用,电子稳像技术成为研究热点。黑边填充是稳像处理技术中的重要一环,现有技术分为3类:有效区域缩放、视频图像填补修复和视频图像重建。MATSUSHITA等[1]使用填补缺失框架部分的方法以改善视频焦点。RYU和CHUNG[2]使用2D仿射模型并采样双线性插值法对稳像后的图像进行填充修复。YOO等[3]的稳像方案综合运用了马赛克法和运动修补法将图像修补区域周边的像素信息结合相邻帧中的像素来估计空白区域的像素信息。上述方法均存在填充图像不具时序连续性、填入图像质量不高、拼接边界明显等共有问题。

图像修复对于最终的视频稳像效果影响较大,是运动补偿的重要部分。近年来许多研究都取得了不错的效果,如PATWARDHAN等[4]将Criminisi图像修复改进用于视频修复。该方法利用光流对视频前后景分割,定义了新优先级函数,保证了时间信息的有效性。NEWSON等[5]对视频进行时空金字塔分层,通过重建各层视频金字塔完成视频修复。该方法解决了时域连续性的问题,但在视频结构复杂时会出现误匹配等状况。LUO等[6]利用视频中的时间信息及对应深度图构建高斯混合模型,并加入运动补偿实现移动摄像场景下的视频修复。卷积神经网络(convolutional neural networks,)视频图像重建是重要的视频修复方法之一。俞海宝等[7]引入数值求解方法替代直接用卷积核的反转近似反卷积核的方法,使可视化模型提取的特征效果更加明显。BURT和ADELSON[8]提出金字塔图像融合模型,有效保留原图细节并保持清晰度不降低。MAO等[9]对拉普拉斯金字塔融合算法进行多项加权融合以丰富图像边缘细节。谷雨等[10]使用最佳缝合线图像融合的方式解决拼接线划定的问题。QU等[11]通过将视频中的多幅图像无缝拼接成全景图像,解决拼接中存在误差的问题。上述方法对本文的研究具有较好的启发意义。

针对现有方法中填充图像不连续、拼接线虚影明显、边缘丢失等问题,本文提出了一种结合时序网络和金字塔融合的稳像修复方法,以提升稳像修复处理中的黑边修复效果。主要内容包括:

(1) 搭建时序网络模型对当前帧的完整图像进行预测,解决了填充部分与原有图像间的时序不一致,以及缺损填充部分质量较差的问题;

(2) 提出一种视频帧融合填充方案,使填充与原内容拼接处更加自然,避免出现突兀、虚影等问题;

(3) 提出了修复裁剪流程优化策略,解决边缘信息裁剪过多问题,提升了整体视频修复效率。

1 结合时序网络和金字塔融合的稳像修复方法

本文提出的结合时序网络和金字塔融合的稳像修复方法模型结构流程如图1所示。

图1 系统流程图

1.1 时序网络预测

要获得较好的视频稳像修复效果, 首先需要得到质量较高的待填入图像。本文提出CNN联合门控单元网络(gated recurrent)的待填入图像预测模型来提高填充部分图像质量。CNN通过自学习参数可快速处理图像。GRU能够克服循环神经网络(recurrent neural network,RNN)长期依赖等问题。相比长短期记忆(long short term memory,LSTM)模型,GRU减少了训练参数,提高了计算效率,能获得比LSTM更佳的效果。时序网络预测模型如图2所示。

图2 当前帧预测模型结构

在模型中,经大量实验后将卷积池化部分设置为3层,即

GRU将前一部分得到的参数矩阵带入时序神经网络中计算并输出一个预测的参数矩阵,GRU中各个门以及单元状态的计算为

反卷积部分对时序模型得到的特征进行上采样组合,其过程为

而网络权重的更新过程采用了随机梯度下降法,即

1.2 金字塔融合

本文使用高斯拉普拉斯金字塔融合方法对图像进行总体重构,改进的最佳缝合线对拼接部分缝合。金字塔融合将分解出的高低频部分使用不同策略达到相对较好的融合效果,而最佳缝合线算法通过动态寻找拼接缝,有效解决运动目标场景中鬼影现象。

算法包括金字塔分解与构建、缝合线融合以及图像的复原重构3个环节。高斯金字塔分解和构建环节中,可表达为

其中,G为高斯金字塔中第层图像;(,)为高斯卷积核函数;LP为拉普拉斯金字塔中的第层图像;LP为图像顶层;*为采样后的图像。

以最佳缝合线对图像进行缝合,即

其中,E(,)为图像的颜色差异强度值;E(,)为图像结构差异强度值。将图像梯度计算带入E(,)中,SS表示3×3的Sobel算子模板,E(,)则可改写为

引入Canny算子对最佳缝合线划定公式进行优化,使其划定更加合理。加权后的最佳缝合线划定规则为

其中,E为当前时刻图像的最佳缝合线;w权值的大小由2×2的高斯卷积模板计算出梯度值带入

其中,GG分别为Canny算子检测出的和方向的梯度信息。常系数避免除0的情况。

最后,对图像重构,即

重构完成得到修复处理后的单帧。

1.3 视频帧修复裁剪优化策略

针对算法整体耗时偏长等问题,提出帧修复优化策略。首先在预处理前设置一个用于记录有效区域的蒙板帧。优化策略为:

(1) 初始蒙板帧的所有像素点均有效,设0为其初始状态面积。在第一帧图像重构结束得到最终效果帧后,将蒙板帧有效面积1更新为第一帧图像的有效区域,其外的点置为无效点且不可翻转;

(2) 若第帧稳像位置调整后的有效区域能完整覆盖E-1,则跳过步骤(3),否则执行(3);

(3) 在第帧进行金字塔图像融合的重建过程中,在图像重构步骤完成前,先用模版帧对即将输出的帧进行一定的内容处理。将新增的未定义像素点置为无效点并生成第帧的最终图像并更新E的区域;

(4) 循环执行步骤(2)~(3),直至最后一帧确定E

(5) 在最终更新的蒙版帧有效区域E中确定一个最大面积的矩形E,并以此作为最终裁剪边界的尺寸对第1帧至第帧进行裁剪。

该优化策略提高了修复效率,同时解决了过度裁剪导致边缘信息部分损失的问题。

2 实验结果与分析

实验环境为3.60 GHz CPU,110 G内存,tesla P100 16 G×2 GPU,Linux操作系统,实验使用公共视频稳像数据集[12-13],共40段视频,包括静态、车载以及手持等不同场景下的非稳定视频。选择峰值信噪比(peak signal to noise ratio,PSNR)、结构相似度(structural similarity index,SSIM)和修复耗时3个指标进行综合评价。

实验选取了4种视频稳像图像修复对比方法,分别是快速行进修复算法(fast matching method,FMM)[14]、改进后的Criminisi算法[4]、马赛克法与相邻帧填充相结合方法[3](下文混合填充法)、视频时空金字塔分层法[6]。

图3为抖动剧烈、结构复杂的视频图像修复的效果展示,图3 (a)是经过初步稳像后得到的残缺图像,图3(b)~(f)为5种算法的修复区域(虚线框),可以发现破损区域较小的右下角部分,5种算法均能取得不同程度修复效果,但图像顶部的大片破损区域其修复效果则差距较大。FMM算法快速地填充了缺损但图像明显模糊且能明显看出原有图像边界;Criminisi算法的修复效果放大图可见纹理错位状况,且在右上角部分出现结构错误;混合填充法使用了相邻帧填充部分效果较好,但亮度稍有偏差,填充边界稍明显,马赛克法填充部分较为模糊;视频时空金字塔分层法与本文算法修复视觉效果较好,但本文算法在图像的四周边缘部分比视频时空金字塔分层法包含更多信息,图像更为完整。

图3 抖动剧烈、缺损部分位于结构复杂处修复效果对比((a)第131帧经初步稳像调整后的残缺图像;(b) FMM算法修复效果;(c)改进后的Criminisi算法修复效果;(d)混合填充法修复效果;(e)视频时空金字塔分层法修复效果;(f)本文算法修复效果)

图4为晃动幅度较大、缺损部分位于纹理细节处修复效果展示(虚线框),图4(a)中包含左侧边和顶部2个残缺部分;图4(b) FMM算法对于天空部分修复较好,树枝部分凌乱模糊;图4(c) Criminisi算法和图4(d)混合填充法修复左侧边和顶部均出现了纹理错位;图4(f)本文算法在树枝纹理上相较于图4(e)视频时空金字塔分层法的修复效果更显清晰。

由表1可知,v1视频段结构复杂,视频画面的缺损部分位于多种物体分界处,本文算法平均PSNR值和SSIM指数分别优于其他算法约1~6 dB和2%~5%。v2视频段结构相对稳定,且缺损部分多位于道路、天空等视频结构简单处,本文算法平均PSNR值优于其余算法约1~4 dB,SSIM提升1%~2%。

从表2可以看出,本文算法平均PSNR优于对比算法约2~5 dB,平均SSIM提升约2%~7%。算法缺损填充部分纹理与原始部分接近,无虚影重影等问题,视频修复效果提升明显,可应用于手机相机、执法记录仪、无人机等设备所摄视频。

图4 晃动幅度较大、缺损部分位于纹理细节处修复效果对比((a)第221帧经初步稳像调整后的残缺图像;(b) FMM算法修复效果;(c)改进后的Criminisi算法修复效果;(d)混合填充法修复效果;(e)视频时空金字塔分层法修复效果;(f)本文算法修复效果)

表1 5种算法在2段视频的平均PSNR、平均SSIM以及总耗时对比

表2 5种算法所有视频中的平均PSNR、平均SSIM对比

3 结束语

本文提出了基于时序神经网络和金字塔融合的视频稳像修复方法。针对常用方法中填充时序不一致的问题,设计待填入图像预测模型提高填充部分图像质量。针对填入与原始图像边界明显的问题,采用金字塔融合与加权最佳缝合线的方案消除拼接界线以及物体被分割或虚影的问题。并以优化裁剪修复策略,减少算法耗时,同时尽可能保留视频边缘信息的完整。实验表明,本文算法的PSNR和SSIM等性能指标明显提升,能够获得较好的稳像视觉效果。

[1] MATSUSHITA Y, OFEK E, GE W, et al. Full-frame video stabilization with motion inpainting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(7): 1150-1163.

[2] RYU Y G, CHUNG M J. Robust online digital image stabilization based on point-feature trajectory without accumulative global motion estimation[J]. IEEE Signal Processing Letters, 2012, 19(4): 223-226.

[3] YOO S, KATSAGGELOS A K, JO G, et al. Video completion using block matching for video stabilization[C]//The 18th IEEE International Symposium on Consumer Electronics (ISCE 2014). New York: IEEE Press, 2014: 1-2.

[4] PATWARDHAN K A, SAPIRO G, BERTALMIO M. Video inpainting under constrained camera motion[J]. IEEE Transactions on Image Processing, 2007, 16(2): 545-553.

[5] NEWSON A, ALMANSA A, FRADET M, et al. Video inpainting of complex scenes[J]. Siam Journal on Imaging Sciences, 2014, 7(4): 1993-2019.

[6] LUO G B, ZHU Y S, LI Z T, et al. A hole filling approach based on background reconstruction for view synthesis in 3D video[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1781-1789.

[7] 俞海宝, 沈琦, 冯国灿. 在反卷积网络中引入数值解可视化卷积神经网络[J]. 计算机科学, 2017, 44(S1): 146-150. YU H B, SHEN Q, FENG G C. Introduce numerical solution to visualize convolutional neuron networks based on numerical solution[J]. Computer Science, 2017, 44(S1): 146-150 (in Chinese).

[8] BURT P J, ADELSON E H. A multiresolution spline with application to image mosaics[J]. ACM Transactions on Graphics (TOG), 1983, 2(4): 217-236.

[9] MAO R, FU X S, NIU P J, et al. Multi-directional laplacian pyramid image fusion algorithm[C]//The 3rd International Conference on Mechanical, Control and Computer Engineering (ICMCCE). New York: IEEE Press, 2018: 568-572.

[10] 谷雨, 周阳, 任刚, 等. 结合最佳缝合线和多分辨率融合的图像拼接[J]. 中国图象图形学报, 2017, 22(6): 842-851. GU Y, ZHOU Y, REN G, et al. Image stitching by combining optimal seam and multi-resolution fusion[J]. Journal of Image and Graphics, 20171 22(6): 842-851 (in Chinese).

[11] QU Z, WANG T F, AN S Q, et al. Image seamless stitching and straightening based on the image block[J]. IET Image Processing, 2018, 12(8): 1361-1369.

[12] HU W C, CHEN C H, SU Y J, et al. Feature-based real-time video stabilization for vehicle video recorder system[J]. Multimedia Tools and Applications, 2018, 77(5): 5107-5127.

[13] 刘广龙. 基于特征光流的电子稳像技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2015. LIU G L. Research on electronic image stablization based on feature optical flow[D]. Harbin: Harbin Institute of Technology, 2015 (in Chinese).

[14] WANG M, YANG G Y, LIN J K, et al. Deep online video stabilization with multi-grid warping transformation learning[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2283-2292.

Image stabilization repair method combining time series network and pyramid fusion

LIU Qing1,2,3, LI Shi-chao1,2,3, WANG Wen-shan4, SHI Wen-xi5, CHENG Ke-yang1,2,3

(1. School of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China; 2. Cyber Space Security Academy of Jiangsu University, Zhenjiang Jiangsu 212013, China; 3. Jiangsu Province Big Data Ubiquitous Perception and Intelligent Agricultural Application Engineering Research Center, Zhenjiang Jiangsu 212013, China; 4. National Engineering Laboratory for Public Security Risk Perception and Control by Big Data, China Academy of Electronic Sciences, Beijing 100041, China; 5. Xinjiang Lianhaichuangzhi Information Technology Co., Ltd., Urumqi Xinjiang 830001, China)

To address the problems of the poor filling effect of the video image defect in video image stabilization, which seriously affects the visual effect and causes the black edge filling of the video after image stabilization processing, an image repair method was proposed based on time series network prediction and pyramid fusion. First, the pre-cutting mechanism was employed to adaptively determine whether the current frame needed to be repaired. Then all frames up to the current moment were sent to the model combining convolutional neural networks (CNN) and gated recurrent(GRU) to predict the part to be filled. Next, the improved weighted optimal stitching was used for stitching and image fusion reconstruction in the Gaussian Laplace pyramid. Finally, the size was cut after the completion of reconstruction. The experimental results show that the average peak signal to noise ratio (PSNR) of the method was 2–5 dB higher than that of the compared algorithm, and that the average structural similarity (SSIM) was improved by about 2%–7%. In addition, the video defect repaired by this method exhibits a natural filling effect and a relatively stable visual effect. Even in the cases of large black areas, the repair performance remains stable, which can be applied to a variety of camera platforms and different scenarios.

video stabilization; video inpainting; time series network; pyramid fusion; optimal seam

TP 391.4

10.11996/JG.j.2095-302X.2021010065

A

2095-302X(2021)01-0065-06

2020-08-07;

7August,2020;

2020-08-14

14 August,2020

国家自然科学基金项目(61972183,61672268);社会安全风险感知与防控大数据应用国家工程实验室主任基金项目(201807)

:National Natural Science Foundation of China (61972183, 61672268); National Engineering Laboratory Director Foundation of Big Data Application for Social Security Risk Perception and Prevention (201807)

刘 清(1995–),男,江西赣州人,硕士研究生。主要研究方向为计算机视觉与模式识别。E-mail:1191298066@qq.com

LIU Qing (1995-), male, master student. His main research interests cover computer vision and pattern recognition. E-mail:1191298066@qq.com

成科扬(1982–),男,江苏南通人,教授,博士。主要研究方向为人工智能、计算机视觉等。E-mail:kycheng@ujs.edu.cn

CHENG Ke-yang (1982–), male, professor, Ph.D. His main research interests cover artificialintelligence, computer vision, etc. E-mail:kycheng@ujs.edu.cn

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!