当前位置:首页 期刊杂志

语音信号处理中鲁棒性压缩感知关键技术*

时间:2024-09-03

杨 震 徐珑婷

(南京邮电大学宽带无线通信与传感网技术教育部重点实验室,南京,210003)

语音信号处理中鲁棒性压缩感知关键技术*

杨 震 徐珑婷

(南京邮电大学宽带无线通信与传感网技术教育部重点实验室,南京,210003)

压缩感知技术在许多领域都有广阔的应用前景。压缩感知关键技术主要包括稀疏矩阵的选取,观测矩阵的构造以及重构算法的设计。语音信号不同于一般信号,通常在观测矩阵和重构算法中有特殊的结构特征。在实际的应用中,噪声难以避免,而压缩感知系统中,重构系统是非线性的,且对噪声敏感,因而研究具有抗噪能力的鲁棒性压缩感知系统具有重要意义,也是压缩感知技术能否真正实用的关键之一。本文首先介绍了压缩感知的基本概念,然后分析各种噪声对压缩感知带来的影响,侧重从语音信号的观测矩阵和重构技术入手,介绍具有鲁棒性的压缩感知投影算子和重构算法,最后对未来可能的研究方向进行了展望。

压缩感知;鲁棒性;重构算法;语音信号;投影算子

引 言

伴随着计算机的出现,人类进入到了一个新的信息时代,当今时代的信息不仅多样化,而且数据量激增。目前,信息处理主要依托以计算机为代表的数字系统。传统的信号处理方式为奈奎斯特采样方法,在奈奎斯特采样方式下恢复出原始信号,采样速率至少要达到信号带宽的两倍,对于大数据采用此方式显然对硬件要求很高。同时在实际过程中,信号往往在进行编码传输的过程中会进行一定的压缩,这样不仅可以减少带宽需求,也可以降低计算复杂度,但这样会造成大量的资源浪费,因此人们需要找到新的数据采集与处理方法来处理大数据。压缩感知(Compressed sensing,CS)[1-5]理论为解决这一问题提供了新的思路。压缩感知理论是在信号稀疏的基础上对其进行压缩的一种数据处理方法,这里的稀疏通常指信号本身是稀疏的或者说在某一个变换域上是稀疏的,那么利用对信号的全局观测可以将信号表示为一个远低于奈氏采样速率的观测序列。为了以高概率重构出原信号,要求观测矩阵和稀疏基之间不相关,即观测矩阵需满足有限等距性质(Restricted isometry property,RIP)[6]。CS理论的采样速率由信号本身的结构决定,与信号的带宽无关,这样的采样方式避免了奈氏采样带来的软硬件困难。CS理论在对信号进行采样时会同时对其有压缩作用,这样的处理方式对大数据来说是有着极其重要的意义。目前CS理论的应用领域已经相当广泛,例如目标的检测、分类与跟踪、模式识别、图像压缩和视频编码等[1-4,7-10]。信号压缩感知理论主要由3个方面组成:(1) 稀疏基。即对一个信号而言,如果其本身不是稀疏状态,需要找到一个合适的矩阵,使得信号在该矩阵上呈现出稀疏状态,那么这个矩阵就称为稀疏基;(2) 观测矩阵。在信号稀疏时,找到满足RIP条件的观测矩阵,在不破坏原始信号信息的前提下,将信号进行合理的压缩,一些文献也将观测矩阵称为测量矩阵;(3) 信号重构。观测矩阵投影后的信号通常需要恢复,如何找到合适的重构方法将信号精确地从低维恢复到原始高维信号的方法也极为重要。

基于CS的基本理论,作者在对其研究过程中发现一个重要问题:由于CS重构是非线性的,如果输入时观测序列含有噪声,那么对重构信号的性能影响重大。实际的应用中,信号不可避免地受到噪声的影响。首先原始信号通常受到噪声的污染(如语音和图像采集时混入环境噪声),其次压缩感知后的观测序列也可能受到噪声污染(这在数字通信领域由于量化和编码的存在不可避免;传输过程的误码也是噪声产生的原因之一)。研究表明,一个原本在某个稀疏基上稀疏的信号,在受到噪声污染后,该含噪信号不再稀疏,如果使用稀疏性的约束来进行重构无法得到原始信号,因此研究鲁棒性的CS理论具有实际应用价值。事实上,考虑噪声影响时,对信号重构而言,当观测矢量受到噪声污染时,这个模型和原压缩感知系统输入信号受污染,可以统一成一个信号加噪声叠加模型,当然也可以是两个不同输入的信号加噪声模型。根据最优估计理论可以分析得到,相同统计特性的高斯白噪声,在这两种不同模型下,会对重构的性能产生不同的影响,因而针对这两种模型构造不同的处理方法也很有研究价值。

1 压缩感知基本概念

压缩感知可以实现远低于奈氏采样速率的模数转换。由于现有的数字系统均建立在基于奈氏采样的模数转换基础上,改变了这个环节,那么也就意味着需要重新研究并建立基于CS的新的数字信号处理理论。

假设输入信号x∈RN,在矩阵Ψ={ψi|ψi∈RN,i=1,2,…,N}上呈现出稀疏状态,即

(1)

式中:Ψ即为稀疏基,向量θ=(θ1,θ2,…,θN)T中有k个非零系数,即‖θ‖0=k。在信号x稀疏的前提下,CS理论将其通过观测矩阵Φ投影为一个新的信号y=(y1,y2,…,yM)T,即

(2)

观测值y=(y1,y2,…,yM)T的维数通常小于原信号的维数,即M

CS系统中的稀疏基多数基于信号的正交完备基函数,但是这样的稀疏基往往有着一定的局限性。较好的稀疏基应当根据信号特点设计,而且能够保证信号能够充分地稀疏,因此冗余字典(Redundant dictionary)概念[11]自从出现便得到了广泛的应用。近几年,基于过完备库的信号稀疏分解方法发展迅猛,针对特征复杂的信号以及信号分解复杂度高等问题,分别出现了联合过完备库下的信号分解[11]和基于遗传算法GA的过完备信号稀疏分解[12]。

观测矩阵与稀疏基的不相干性是压缩感知具有好的重构性能的基础,而随机矩阵因为可以提供广泛的不相干性而在理论上得到了广泛的使用,例如高斯随机矩阵[1]。但是这种矩阵在具体实现中需要的存储量大而且计算复杂度高,因而难以在大规模问题中应用。设计高效率且复杂度不高的观测矩阵仍然具有很高的研究价值。而针对最常用的一些信号,如语音信号的固有特性,设计更高效率的自适应观测矩阵也是CS的一个重要研究方向。相对于固定的随机观测矩阵,自适应观测矩阵有着更好的实用应用价值。从信息论的角度,针对时变的不同信号如果能够使得观测矩阵自适应于信号,压缩性能必然提高。

CS理论中信号重构研究也是一个十分重要的课题。在对式(2)中的信号进行重构时,在上文中提到由于信号稀疏,可以求得最优解。Candes等证明了该式可以用求解最小l0范数问题求得其最优解,但是求解最小l0范数问题又是一个NP-hard问题。因此,通常研究人员会将l0范数转化成l1范数问题进行求解,如BP算法[13]、梯度投影方法[14]等,这种方法通常被称为凸松弛法。常用的重构算法还有贪婪追踪算法,例如匹配追踪(Matching pursuits,MP)算法[15]、正交匹配追踪(Orthogonal matching pursuit,OMP)算法[5]以及在此基础上的一些其他算法[16-18]。文献[19~20]也介绍了其他一些CS重构算法。

现有的一些研究成果表明,只要观测矩阵Φ满足RIP条件[6],准确重构原稀疏信号所需的观测次数与稀疏度密切相关[1]。实际应用环境下往往不会预先了解信号的稀疏度,因此如何选择最优观测次数就成为压缩感知实际应用的一个难题。文献[21]提出一种序贯压缩感知(Sequential compressed sensing,SCS)框架,直接利用观测值估算重构误差。其基本原理是由接收端以序列的方式获取观测值,通过寻找重构信号与相邻观测矩阵间的距离来估算本次重构的重构误差。文献[22]提出一种贝叶斯压缩感知(Bayesian compressed sensing,BCS)模型,该模型将目标信号作为随机向量,通过估算该向量的方差确定观测次数。文献[23]在文献[22]的基础上提出了基于拉普拉斯先验思想的贝叶斯压缩感知框架,相对于传统的BCS方法,可以得到更好的重构性能。

本团队对压缩感知的研究首先从观测的构造和信号的重构两个方面,研究如何进一步减少观测个数和降低重构误差的方法,其中主要包括提出了基于模板匹配近似KLT的稀疏基构造,冗余字典的构造及最优观测矩阵的自适应选择算法[24-28];在此基础上,提出将压缩感知理论与语音信号处理领域相结合,形成一套新的基于CS的语音编码技术,并尝试将获得的语音新模型,应用于语音识别、语音转换和语音增强领域,其中主要包括基于小波域的自适应多尺度语音压缩感知算法和基于l1范数优化及码本预测联合重构方案的语音压缩感知编码算法[29-32]等。

2 噪声环境下的压缩感知系统

信号在实际应用中通常会受到噪声的影响,因此鲁棒性压缩感知的研究有着重要的实际应用价值,也是CS技术能否实际应用的前提。图1给出了噪声在压缩感知系统中可能存在的情况,其中主要有4种噪声可能存在CS中:输入噪声、量化噪声、通信噪声以及重构噪声。

(1)输入噪声。输入噪声是在干净信号进行采集时,周围环境中存在的噪声。若没有特殊的采集装置和采集环境,输入噪声是不可避免的。通常所说的去噪一般都是指去除输入噪声的影响。

(2)量化噪声。从实际输入的模拟信号到机器数字信号的转化过程中必然存在量化的过程,而量化过程必然带来量化噪声。

(3)通信噪声。采样和重构系统之间,往往是负责信号传输的通信系统,通信系统之间存在信道误码,因此在信号传输过程中通常存在通信噪声。

(4)重构噪声。重构系统本身存在重构误差,对于恢复的信号而言,也是一种噪声,图1中表现为重构噪声。

图1 噪声在压缩感知系统中的分布情况Fig.1 Distribution of noise existing in compressed sensing system

下面以语音数据为例,从数学角度介绍含噪环境下的压缩感知系统[33]。用xn,x,n分别表示含噪语音、干净语音以及噪声,那么xn=x+n。对于语音的CS处理,通常首先对其进行分帧处理,若将含噪语音信号xn分为L帧,可以得到{xni|i=1,2,…,L},其中每一帧语音信号矢量的维度为N。将每帧语音信号矢量xni投影到观测矩阵Φ上可以得到

(3)

式中观测矢量yni的维度为M,观测矩阵对信号有压缩作用,因此M

(4)

如何减小z0对压缩采样的影响是增强CS系统鲁棒性的关键。研究表明,具有鲁棒性的压缩感知系统在观测投影阶段或者后续的重构阶段可以减少噪声对系统的影响。现有的CS鲁棒性研究中涉及的噪声大部分指高斯噪声[34],但是实际应用中脉冲噪声[35]也经常存在,因此本文主要考虑这两种噪声对CS系统的影响。

2.1 高斯噪声

高斯噪声指的是噪声概率密度函数服从正态分布(即高斯分布)的噪声,目前没有特殊说明下的鲁棒性CS系统中提到的噪声通常为高斯噪声。若高斯噪声的功率谱为常数,那么该高斯噪声就被称作高斯白噪声。对于高斯噪声下的CS系统,如果噪声不是很强,绝大多数算法依然可以较好地重构出原始稀疏信号[36-42],文献[43]指出高斯噪声下CS系统的重构性能与其噪声方差紧密相关。

2.2 脉冲噪声

脉冲噪声是一种非连续性信号,它由时间上无规则的脉冲或者尖峰组成,是高斯噪声外另一种常见的噪声类型[44-50]。奈氏采样中,由于脉冲信号在时域内集中在某一时段出现,因此影响的只是局部的信号。但是在CS采样中,由于含噪信号要投影到观测矩阵上,导致每一个观测值都会受到影响,所以这种影响是全局的[33,51],因此研究脉冲噪声对CS系统的鲁棒性不同于高斯噪声。

2.3 含噪信号的一些重构算法

针对上述两种噪声,研究人员陆续提出了一些鲁棒性重构算法。首先,常用的一种噪声下CS系统的重构方法为基追踪去噪(Basis pursuit de-noising,BPDN)方法[52],从其名称便知道该算法对噪声有着一定的抑制作用。BPDN是从基追踪(Basis pursuit,BP)方法衍变而来的一种鲁棒性CS重构算法。BP算法一般都转化为线性规划问题来进行求解,而BPDN则一般转换为二次规划问题来进行求解。通常BPDN适用于噪声分布已知的情况,多数情况用来解决高斯白噪声情况下的鲁棒性重构问题。

在稀疏度已知时,对含噪信号重构可以采用凸松弛方法中的最小绝对收缩与变量选择算子(Least absolute shrinkage and selection operator,LASSO)方法[53]。LASSO设计思路为:在传统最小二乘估计基础上对模型稀疏添加l1范数的惩罚项。一般采用最小角回归(Least angle regression,LARS)处理LASSO算法[54]。

重构问题往往可以用不同的方法来进行求解,另一种常用的方法为凸优化方法。添加了l1惩罚项的最小二乘估计可以转化成有边界约束的凸二次规划问题。通过不停迭代,目标函数值沿着负梯度方向搜索最优解,可以求解该凸二次规划问题,这种方法被称为稀疏重构的梯度投影(Gradient projection for sparse reconstruction,GPSR)算法。

以上3种算法主要用来处理高斯噪声环境下的CS系统。对于脉冲噪声而言,可以采用Justice Pursuit(JP)算法[55]对含噪信号进行重构。其设计思路是将脉冲噪声和原信号分别设计稀疏基,在重构阶段将含噪语音投影到这两个稀疏基结合的矩阵上,那么选取原信号对应的稀疏系数便可以恢复出原信号。另一种处理脉冲噪声的重构方法为洛伦兹迭代硬阈值算法(Lorentzian iterative hard thresholding,LIHT)[56,57],该算法采用洛伦兹范数最小化的思想对鲁棒性CS系统进行重构。虽然LIHT算法的计算复杂度低,但是对脉冲数量多的情况,它的重构性能明显下降。本团队在这两种算法基础上,提出新的脉冲环境下的CS重构算法,具体算法将在第4节中介绍。

上述一些重构含噪信号的算法,都仅是从压缩感知系统中重构算法本身去考虑含噪信号的重构,而没有从压缩感知系统的各个环节(如观测矩阵、稀疏基、重构算法以及它们的相互关系)上去进行系统全面的研究,也没有考虑根据噪声特性和产生的原因而在压缩感知系统内采取其他特殊的消噪措施。

3 压缩感知系统中具有鲁棒性的观测矩阵

实际的信号采集及传输系统在工作过程中噪声难以避免,噪声的存在必将影响信号稀疏性。因而在压缩感知理论的实际应用中必须考虑噪声的影响。

3.1 语音信号在行阶梯观测矩阵下的压缩感知

压缩感知的三个基本问题:稀疏域、观测矩阵和重构算法,每一个都与抗噪的鲁棒压缩感知系统有密切关系。稀疏域不但是压缩感知对象——信号的一个稀疏分布空间,同时也可以将噪声空间在这个域与信号空间尽可能隔离,为后续消噪提供支撑;好的投影矩阵可以在上述第一步基础上实现直接消噪的压缩采样效果。

语音信号在DCT基上呈现出近似稀疏的状态,采用随机高斯矩阵或者其他观测矩阵对稀疏的语音信号进行压缩,但是重构阶段的效果不理想,因为很难准确地对稀疏系数进行定位。针对这一现象,文献[58]提出了一种行阶梯矩阵。在压缩比为1∶4时,行阶梯矩阵表示为

(5)

在行阶梯矩阵作为观测矩阵对语音进行压缩后,重构算法也不再采用传统的方法,文献[58]给出一种对偶仿射尺度内点法(Dual affine scaling interior point method),该算法基于线性规划求解问题。研究表明,行阶梯观测矩阵式(5)可以保证对语音重构时,对应的零系数位置正确。行阶梯矩阵的具体推导过程详见文献[58~60]。

行阶梯矩阵不仅可以用于压缩一般的语音信号,经过行阶梯投影的含噪语音的信噪比也会有所增加,这里的噪声主要指高斯白噪声。语音中的浊音部分有周期性,通过行阶梯矩阵的投影后,浊音部分得到增强;对于噪声而言,由于其分布随机,经过行阶梯矩阵的投影后噪声部分抵消。含噪语音经过式(5)的观测矩阵处理后,会提高语音信号的信噪比,进而增强了含噪语音系统的鲁棒性。文献[61]通过实验验证了行阶梯矩阵投影后的含噪语音信噪比得到了提高,系统鲁棒性进一步增强。

3.2 基于序贯压缩感知的最优观测序列长度

(6)

式中:T表示序列间相隔的步长;HM+T是由M+T次观测所决定的仿射空间;,HM+T)表示到HM+T的距离,CT为随机变量,其均值上限和方差上限分别为

(7)

(8)

在含噪环境下,参数CT是一个与信号功率和噪声方差相关的变量,可以考虑在CT前加入常量C对CT的均值上限进行修正。因此基于序贯压缩感知SCS原理可以确定最优观测序列长度,而新增的T×N观测矩阵的每一列向量可以利用贝叶斯压缩感知的自适应优化框架进行设计与实现,最终确定含噪环境下的最优观测序列长度与最优观测矩阵。文献[62]将投影矩阵自适应调整与矩阵最优化结合,即考虑使投影矩阵的列向量相关性最小,从而能达到最优的重构效果。

3.3 量化噪声下语音压缩感知的观测矩阵

语音主要由浊音和清音组成,两种成分的性质也有很大区别。在对语音进行CS压缩过程中,通常选用一个通用观测矩阵,并没有对清音浊音进行区分。为了更好地保留清音和浊音的信息,文献[33]提出了两块对角(Two block diagonal,TBD)矩阵作为观测矩阵来对语音信号进行压缩。TBD矩阵结构为

(9)

一般的高斯随机矩阵可以以高概率满足RIP条件,对角阵Α1能够满足RIP特性也是其成为观测矩阵的重要指标。文献[33]从理论角度证明其满足RIP特性,同时也发现TBD矩阵还可以减少量化噪声对语音CS系统的重构误差。量化噪声和脉冲噪声对输入语音信号x的影响,可表达为

(10)

输入信号经过观测矩阵Φ的投影后会进行量化操作,其中Aq(·)表示量化过程,在量化过程中,必然带来量化噪声,同时受到脉冲噪声e的影响,最终观测向量的构成比较复杂,必须要合适的重构方法才能以高概率恢复出原始信号。文献[33]从理论和实验的角度说明了TBD对式(10)含噪情况下的鲁棒性CS重构效果,要明显优于普通的高斯随机观测矩阵。

3.4 其他具有鲁棒性的压缩感知观测矩阵

本文在3.1节中给出一种针对语音信号的观测矩阵,从而达到抑制噪声的同时,增强原始信号的效果。然而该行阶梯矩阵的适用范围不广,本节介绍一种选择性测量的CS方法提高系统鲁棒性[63]。文献[63]给出的选择性测量的压缩感知方法如下:首先分析噪声经过压缩后的统计特性,然后通过压缩域投影滤波器和噪声联合迭代检测的输出进行反馈,产生选择性测量矩阵。该矩阵可以达到“放大”原始信号和“屏蔽”噪声信号的作用,因为在反馈阶段可以得到噪声分量的位置信息。具体过程可以参照图2的流程图。

图2 自适应选择压缩感知测量矩阵结构[63]Fig.2 Block diagram of adaptive selective compressed sensing measurement matrix[63]

该方法从测量阶段便有效地抑制了噪声信号,提高了信噪比。这种从源头上有效抑制输入段噪声的方法提供了一种很好的思路,具体算法读者可以阅读文献[63]。虽然从测量矩阵入手抑制噪声是一种很好的手段,但是设计具有鲁棒性的观测矩阵比较困难,更多的研究人员从重构角度入手分析鲁棒性压缩感知技术。

4 噪声下压缩感知信号重构技术

本节探讨当观测信号受到不同噪声污染时,在压缩感知框架下实现对信号较精确重构算法,其中涉及到高斯噪声和脉冲噪声下的鲁棒性重构算法。

4.1 高斯噪声下压缩感知信号重构技术

4.1.1 自适应共轭梯度投影算法

2.3节中提到的鲁棒重构算法——GPSR算法重构效果好,运算速度快[64],但是收敛速度较慢。因此,文献[65]提出了自适应共轭梯度投影(Adaptive conjugate gradient projection,ACGP)算法解决收敛速度的问题。首先将梯度法(Gradient projection,GP)与共轭思想结合得到共轭梯度法(Conjugate gradient projection,CGP)算法,以达到加快算法速度的目的。根据已知点的梯度得到共轭方向,从而得到下一个搜索方向。CGP的算法步骤为

ACGP算法则是CGP算法的进一步推广。首先对含噪信号重构过程时求解最优稀疏解的目标函数可以表示为

(11)

式中:参数τ通常是固定的,文献[65]则提出一种自适应选择参数τ的方法,即ACGP算法。图3给出了基于ACGP算法的含噪语音压缩与重构框图。ACGP算法对含噪声信号进行压缩与重构的过程详见文献[65~66]。

图3 含噪语音压缩与重构的ACGP算法[65]Fig.3 Block diagram of ACGP algorithm for noisy speech compression and reconstruction[65]

4.1.2 自适应基追踪去噪方法

在上述CS鲁棒性重构算法中介绍了BPDN算法,在此基础上,文献[31]提出了一种自适应基追踪去噪方法(Adaptive basis pursuit de-noising,ABPDN)。首先从式(3)出发,重新表示观测为

(12)

不同于式(3)中的α,这里的αM是指α中M项最大的系数组成的稀疏向量,因此测量噪声为z1=ΦΨ(α-αM),总噪声也变为z=z0+z1。由于BPDN算法设定原始信号和重构信号有误差,因此式(12)的表达方法不会影响最终的重构效果。BPDN的目标函数为

(13)

式中λ为一个权衡两个范数表达数值的参数。当λ→0时,式(13)退化为基追踪问题。

文献[31]基于式(13),对参数的选取进行了特别处理,期望最终的重构信号与原始信号的误差更小。具体选择方法为

(14)

即不同信噪比下的最佳参数不同,具体参数选取过程参照文献[31,67]。

基于ABPDN的含噪语音信号的压缩和重构框图如图4所示。由于干净语音在小波变换中呈现稀疏状态,图4选用小波基作为稀疏方式。文献[31]的仿真结果表明该方法既实现了压缩采样,又在重构信号时实现了语音增强,优于基追踪重构方法。

图4 基于ABPDN的语音信号的压缩与重构框图[67]Fig.4 Block diagram of speech compression and reconstruction based on ABPDN algorithm[67]

4.1.3 快速交替方向乘子法

文献[68]提出了一种快速交替方向乘子法(Fast alternating direction method of multipliers,FADMM),该算法由交替方向乘子法(ADMM)衍生而来,主要是为了加快ADMM的算法速度。由于l0-正则化问题是一非凸问题,通常将其转化为l1-正则化来求解,但是这两个正则化问题并不完全等价,因此找到一个合适的求解l1-正则化的方法也有重要的研究意义。文献[68]的FADMM算法可以基于ADMM算法求解含噪信号重构时的l0-正则化问题。首先利用变量裂变技术可以得到如下的目标函数

(15)

可以发现此时l0-正则化问题变为约束优化问题。FADMM的具体算法步骤可见文献[68]。

图5 不同算法下的MSE曲线[68]Fig.5 MSE curves based on different algorithms[68]

实验表明,相较于ADMM算法,FADMM具有更高的信噪比和更快的收敛速度。图5给出了FADMM算法和SALSA算法对含噪信号的重构均方误差(Mean square error,MSE)的对比情况[66,68],参数设定为:压缩比0.5,以及均值0、方差0.1的高斯噪声。图5清晰地对比了两种算法的收敛速度,FADMM算法只需3次迭代便可以达到收敛状态,而SALSA需要近10倍的迭代次数才达到收敛状态。同时文献[66,68]具体分析了两种算法的计算复杂度,发现两种算法计算量相当。因此FADMM算法的收敛速度在不提高计算复杂度的前提下得到了大幅度的提升。更详细的算法推导过程可以参考文献[66,68]。

4.2 脉冲噪声下压缩感知信号重构技术

脉冲信号在时域内集中在某一时段出现是高斯噪声外另一种常见的噪声类型[44-50]。奈氏采样中,由于它集中出现在某一个尖峰或者某一短时域内,影响的只是局部信号。但是在CS采样中,由于含噪信号要投影到观测矩阵上,导致每一个观测值都会受到影响,所以这种影响是全局的[33,51],因此需要研究新的CS鲁棒性重构方法来恢复脉冲噪声下的原始信号。本节介绍团队在脉冲噪声下提出的两种鲁棒性压缩感知系统。文献[51]基于贝叶斯理论以及信号的统计特性,提出了贝叶斯脉冲噪声稀疏重构(Bayesian impulsive noise sparse reconstruction,BINSR)算法来恢复脉冲环境下的原始信号。使用BINSR算法可以有效地估计出原信号,值得注意的是,文献[51]中的原始信号是高斯稀疏信号。考虑到在实际情形中很难预知其信号以及噪声的分布情况,文献[51]在BINSR算法基础上提出了一种自适应的BINSR算法(ABINSR),使其不再依赖于信号以及噪声的统计参数,这种自适应使得ABINSR算法不仅仅适用于脉冲环境,还适用于高斯白噪声环境下的鲁棒性重构问题。虽然这两种算法改善了鲁棒性CS的重构性能,但是其算法复杂度值得进一步研究[33,51]。

4.3 其他压缩感知系统下的鲁棒性重构技术

上面介绍了作者团队在CS鲁棒性的重构算法的一些研究成果,同时一些其他学者也致力于CS鲁棒性的重构算法的研究中。不同于本团队的主要研究对象(语音信号),一些文献主要研究绝对稀疏信号的重构算法,也就是完全从数学角度研究重构算法,也有一些文献研究的对象针对其他信号,比如图像等。本节主要介绍两种鲁棒性重构方法:稀疏贝叶斯学习(Sparse Bayesian learning,SBL)方法[69]和双字典方法[70]。

(1)稀疏贝叶斯学习方法。传统的重构算法从范数领域出发来对信号进行重构,然而SBL是一种机器学习算法,它利用贝叶斯学习的方法来对信号进行重构[71]。SBL对绝对稀疏信号的恢复效果远好于范数理论下的重构算法,理论证明SBL的重构方法的收敛值为全局最优值,并非局部最优值。文献[72]提出块稀疏贝叶斯学习方法后,稀疏贝叶斯方法又可以用于具有块结构稀疏的信号的重构算法中。

从式(2)出发,若系统含有噪声信号,式(2)的观测序列会包含噪声项,即

(16)

SBL方法假设θ的每个元素都服从高斯分布

(17)

式(17)中的先验方法源于人工神经网络。若θ原本是稀疏状态,那么其0值对应的γi在算法迭代过程中会逐步趋向0。通常迭代步骤会设定一个阈值,这个阈值和信噪比相关[69,71-72]。

5 结束语

压缩感知涉及到信号与信息处理的多个领域,是信号处理领域的前沿课题。通过对压缩感知技术的研究,可以进一步探索降低观测的数量及针对语音信号的自适应观测矩阵的设计。本文介绍了语音信号下的行阶梯矩阵,同时介绍了自适应选择的CS测量矩阵。本文也介绍了噪声环境下的鲁棒性重构算法,主要考虑的噪声源有两种,分别为高斯噪声以及脉冲噪声,从这两个噪声入手,分析了目前的一些提高系统鲁棒性的重构算法。然而CS理论和技术离实际应用仍然有一定距离,未来的研究内容也有很多。首先语音方面涉及到的一些问题及可研究方向包括:(1) 从信号的编码角度,虽然CS也是一种压缩技术,但与传统的压缩编码技术比较,以语音为例,仅仅依靠CS理论的压缩,压缩比远没有达到传统的编码技术的压缩比,需要进一步对观察序列进行压缩编码。(2) 从信号处理,例如语音识别、语音合成和语音增强等角度考虑,需要研究如何直接从CS压缩后的观察序列中提取相应信号参数(例如重要的语音的基音周期、清浊音和共振峰等),建立模型以及消除噪声等。其次从CS角度分析存在的问题及可研究方向包括:(1) 本文侧重于分析在含噪情况下的鲁棒性压缩感知系统,噪声主要为高斯白噪声,但是噪声具有多样性,本文也给出了另一种噪声——脉冲噪声下的CS重构算法。相对于高斯白噪声的含噪系统而言,其他噪声情况下的鲁棒性也值得研究。为了达到普适性,最佳的情况为,鲁棒性CS系统对噪声的类型并没有要求,只需要信号信噪比,或者其他一些易获得的信息即可达到提高鲁棒性的目的。(2) 本文侧重讨论语音信号的鲁棒性压缩感知研究,因此针对语音这种特殊信号,如何提高其鲁棒性需要结合它本身的结构特性。例如本文介绍的行阶梯矩阵具有在观测阶段增强语音信号,同时抑制噪声信号的作用。但是,该方法对噪声类型有约束,同时压缩比有限。因此可以从语音结构特征入手,进一步研究语音信号下的压缩感知的鲁棒性算法,争取将其实用化。

[1] Donoho D L. Compressed sensing[J]. Information Theory IEEE Transactions on, 2006, 52(4):1289-1306.

[2] Tsaig Y, Donoho D L. Extensions of compressed sensing[J]. Signal Processing, 2006, 86(3):549-571.

[3] Li D, Wong K D, Hu Y H, et al. Detection, classification, and tracking of targets[J]. Signal Processing Magazine IEEE, 2002, 19(2):17-29.

[4] Candes E J, Tao T. Near-optimal signal recovery from random projections: Universal encoding strategies [J]. Information Theory IEEE Transactions on, 2004, 52(12):5406-5425.

[5] Tropp J A, Gilbert A C. Signal recovery from random measurements via orthogonal matching pursuit[J]. Information Theory IEEE Transactions on, 2007, 53(12):4655-4666.

[6] Candes E J, Romberg J, Tao T. Robust uncertainty principles: Exact signal reconstruction from highly incomplete frequency information[J]. Information Theory IEEE Transactions on, 2006, 52(2):489-509.

[7] Huang H, Ge Y, Zhang J, et al. Application of affine transform in compressed sensing tracking[J]. Journal of Xidian University, 2015, 42(2):162-166, 205.

[8] Baron D, Wakin M B, Duarte M F, et al. Distributed compressed sensing[J]. Preprint, 2012, 22(10):2729-2732.

[9] Lustig M, Donoho D, Pauly J M. Sparse MRI: The application of compressed sensing for rapid MR imaging[J]. Magnetic Resonance in Medicine, 2007, 58(6):1182.

[10]曾理,张雄伟,陈亮,等. 基于压缩感知的K-L分解语音稀疏表示算法[J].数据采集与处理,2013,28(3): 267-273.

Zeng Li, Zhang Xiongwei, Chen Liang, et al. Compressed-sensing-based speech sparse representation with K-L expansion[J].Journal of Data Acquisition and Processing,2013,28(3): 267-273.

[11]Mallat S, Zhang Z. Matching pursuit with time-frequency dictionaries[J]. IEEE Trans on Signal Processing,1993,41(12): 3397-3415.

[12]Ventura R F I, Vandergheynst P. Matching pursuit through genetic algorithms[R]. LTS-EPFL Tech Report, 2001.

[13]Saligrama V, Zhao M. Thresholded basis pursuit: LP algorithm for order-wise optimal support recovery for sparse and approximately sparse signals from noisy random measurements [J]. IEEE Transactions on Information Theory, 2008, 57(3):1567-1586.

[14]Figueiredo M A T, Nowak R D, Wright S J. Gradient projection for sparse reconstruction: Application to compressed sensing and other inverse problems[J]. Selected Topics in Signal Processing IEEE Journal of, 2007, 1(4):586-597.

[15]张春梅, 尹忠科, 肖明霞. 基于冗余字典的信号超完备表示与稀疏分解[J]. 科学通报, 2006, 51(6):628-633.

Zhang Chunmei, Yin Zhongke, Xiao Mingxia. Overcompelete representation and sparse decomposition based on redundant dictionary[J]. Chinese Science Bulletin, 2006, 51(6):628-633.

[16]Blumensath T, Davies M E. Stagewise weak gradient pursuits[J]. IEEE Transactions on Signal Processing, 2009, 57(11):4333-4346.

[17]Needell D, Vershynin R. Signal recovery from incomplete and inaccurate measurements via regularized orthogonal matching pursuit[J]. IEEE Journal of Selected Topics in Signal Processing, 2010, 4(2):310-316.

[18]Rath G, Guillemot C. Sparse approximation with an orthogonal complementary matching pursuit algorithm [C]∥ IEEE International Conference on Acoustics, Speech and Signal Processing. Taipei: IEEE Computer Society, 2009:3325-3328.

[19]石光明,刘丹华,高大化,等. 压缩感知理论及其研究进展[J]. 电子学报, 2009, 37(5):1070-1081.

Shi Guangming, Liu Danhua, Gao Dahua, et al. Advances in theory and application of compressed sensing[J]. Acta Electronica Sinica, 2009, 37(5):1070-1081.

[20]杨真真, 杨震, 孙林慧. 信号压缩重构的正交匹配追踪类算法综述[J]. 信号处理, 2013, 29(4):486-496.

Yang Zhenzhen, Yang Zhen, Sun Linhui. A survey on orthogonal matching pursuit type algorithms for signal compression and reconstruction [J]. Journal of Signal Processing, 2013, 29(4):486-496.

[21]Malioutov D M, Sanghavi S R, Willsky A S. Sequential compressed sensing[J]. IEEE Journal of Selected Topics in Signal Processing, 2010, 4(2):435-444.

[22]Ji S, Xue Y, Carin L. Bayesian compressive sensing[J]. IEEE Transactions on Signal Processing, 2008, 56(6):2346-2356.

[23]Babacan S D, Molina R, Katsaggelos A K. Bayesian compressive sensing using Laplace priors[J]. IEEE Transactions on Image Processing, 2010, 19(1):53-63.

[24]郭海燕, 杨震. 基于近似KLT域的语音信号压缩感知[J]. 电子与信息学报, 2009, 31(12):2948-2952.

Guo Haiyan, Yang Zhen. Compressed speech signal sensing based on approximate KLT[J]. Journal of Electronics & Information Technology, 2009, 31(12):2948-2952.

[25]郭海燕, 王天荆, 杨震. DCT域的语音信号自适应压缩感知[J]. 仪器仪表学报, 2010, 31(6):1262-1268.

Guo Haiyan,Wang Tianjing, Yang Zhen. Adaptive speech compressed sensing in the DCT domain[J]. Chinese Journal of Scientific Instrument, 2010, 31(6):1262-1268.

[26]孙林慧, 杨震, 叶蕾. 基于自适应多尺度压缩感知的语音压缩与重构[J]. 电子学报, 2011, 39(1):40-45.

Sun Linhui, Yang Zhen, Ye Lei. Speech compression and reconstruction based on adaptive multiscale compressed sensing theory[J]. Acta Electronica Sinica, 2011, 39(1):40-45.

[27]孙林慧, 杨震. 基于压缩感知的分布式语音压缩与重构[J]. 信号处理, 2010, 26(6):824-829.

Sun Linhui, Yang Zhen. Distributed speech compression and reconstruction based on compressed sensing theory [J]. Signal Processing, 2010, 26(6):824-829.

[28]王天荆, 郑宝玉, 杨震. 基于自适应冗余字典的语音信号稀疏表示算法[J]. 电子与信息学报, 2011, 33(10):2372-2377.

Wang Tianjing, Zheng Baoyu, Yang Zhen. A speech signal sparse representation algorithm based on adaptive overcomplete dictionary[J]. Journal of Electronics & Information Technology, 2011, 33(10):2372-2377.

[29]叶蕾, 杨震, 郭海燕. 基于小波变换和压缩感知的低速率语音编码方案[J]. 仪器仪表学报, 2010, 31(7):1569-1575.

Ye Lei, Yang Zhen, Guo Haiyan. Low bit rate speech coding based on wavelet transform and compressed sensing[J]. Chinese Journal of Scientific Instrument, 2010, 31(7):1569-1575.

[30]叶蕾, 郭海燕, 杨震. 基于压缩感知重构信号的说话人识别系统抗噪方法研究[J]. 信号处理, 2010, 26(3):321-326.

Ye Lei, Guo Haiyan, Yang Zhen. Research on antinoise method of speaker recognition system based on compressed sensing reconstruction signal[J]. Signal Processing, 2010, 26(3):321-326.

[31]孙林慧, 杨震. 基于自适应基追踪去噪的含噪语音压缩感知[J]. 南京邮电大学学报:自然科学版, 2011, 31(5):1-6.

Sun Linhui, Yang Zhen. Compressed sensing of noisy speech signal based on adaptive basis pursuit de-nosing[J]. Journal of Nanjing University of Posts & Telecommunications, 2011, 31(5):1-6.

[32]叶蕾, 孙林慧, 杨震. 基于压缩感知观测序列倒谱距离的语音端点检测算法[J]. 信号处理, 2011, 27(1):67-72.

Ye Lei, Sun Linhui, Yang Zhen. Endpoint detection algorithm based on cepstral distance of compressed sensing measurements of speech signal[J]. Signal Processing, 2011, 27(1):67-72.

[33]季云云. 压缩感知观测矩阵与脉冲噪声环境下重构算法研究[D]. 南京:南京邮电大学,2014.

Ji Yunyun. Research on key issues of compressed sensing measurement matrix and reconstruction algorithms under impulsive noise environments[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2014.

[34]Haupt J, Nowak R. Signal reconstruction from noisy random projections[J]. Information Theory IEEE Transactions on, 2006, 52(9):4036-4048.

[35]Carrillo R E, Barner K E, Aysal T C. Robust sampling and reconstruction methods for sparse signals in the presence of impulsive noise[J]. IEEE Journal of Selected Topics in Signal Processing, 2010, 4(2): 392-408.

[36]Ward R. Compressed sensing with cross validation[J]. IEEE Transactions on Information Theory, 2009, 55 (12): 5773-5782.

[37]Boufounos P, Duarte M, Baraniuk R. Sparse signal reconstruction from noisy compressive measurements using cross validation[C]∥IEEE Workshop on Statistical Signal Processing. Madison, WI, USA: IEEE Computer Society, 2007: 299-303.

[38]Castro R M, Haupt J, Nowak R, et al. Finding needles in noisy haystacks[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing-Proceedings. Las Vegas, NV: IEEE Computer Society, 2008: 5133-5136.

[39]Gemmeke J F, Cranen B. Noise reduction through compressed sensing[C]∥9th Annual Conference of the International Speech Communication Association. Brisbane, Australia: ISCA,2008: 1785-1788.

[40]Arias-Castro E, Eldar Y C. Noise folding in compressed sensing[J]. IEEE Signal Processing Letters, 2011, 18 (8): 478-481.

[41]Reeves G, Gastpar M. “Compressed” compressed sensing[C]∥IEEE International Symposium on Information Theory. Austin, TX: IEEE Computer Society, 2010: 1548-1552.

[42]Eldar Y C, Mishali M. Robust recovery of signals from a structured union of subspaces[J]. IEEE Transactions on Information Theory, 2009, 55(11): 5302-5316.

[43]Davenport M A, Duarte M F, Eldar Y C, et al. Introduction to compressed sensing,in Compressed Sensing: Theory and Applications[M]. Cambridge, MA:Cambridge University Press, 2011, 93(1): 2.

[44]Maronna R A, Martin R D, Yohai V J. Robust statistics: Theory and methods [M]. New Jersey:John Wiely & Sons, 2006.

[45]Wang X, Poor H V. Robust Multiuser detection in Non-gaussian channels [J]. IEEE Transactions on Signal Processing, 1999, 86(3): 549-571.

[46]Lampe L. Bursty impulse noise detection by compressed sensing [C]∥IEEE International Symposium on Powerline Communications and Its Applications. Udine, Italy: IEEE Computer Society, 2011: 29-34.

[47]Zhidkov S V. Analysis and comparison of several simple impulsive noise mitigation schemes for OFDM receivers [J]. IEEE Transactions on Communications, 2008, 56(1): 5-9.

[48]Arce G. Nonlinear signal process: A statistical approach[J]. Technometrics, 2006(1): 148-149.

[49]Chan R, Ho C, Nikolova M. Salt-and-pepper noise removal by median-type noise detectors and detail-preserving regularization [J]. IEEE Transactions on Image Processing, 2005, 14(10): 1479-1485.

[50]Studer C, Kuppinger P, Pope G, et al. Sparse signal recovery from sparsely corrupted measurements [C]∥IEEE International Symposium on Information Theory Proceedings. Petersburg, Russia: IEEE Computer Society, 2011: 1422-1426.

[51]季云云,杨震. 脉冲噪声环境下高斯稀疏信源贝叶斯压缩感知重构[J]. 电子学报,2013,41(2):363-370.

Ji Yunyun, Yang Zhen. Bayesian compressed sensing for Gaussian sparse signals in the presence of impulsive noise[J]. Acta Electronica Sinica, 2013, 41(2):363-370.

[52]Chen S, Saunders M A, Donoho D L. Atomic decomposition by basis pursuit[J]. Siam Review, 2001, 43(1):129-159.

[53]Tibshirani R. Regression shrinkage and selection via the LASSO[J]. The Journal of the Royal Statistical Society, Series B, 1996, 58(1): 267-288.

[54]Efron B B, Hastie T, Johnstone I, et al. Least angle regression[J]. Annals of Statistics, 2004, 32(2): 494-499.

[55]Laska J N, Davenport M A, Baraniuk R G. Exact signal recovery from sparsely corrupted measurements through the pursuit of justice[C]∥43rd Asilomar Conference on Signals, Systems and Computers. Pacific Grove, C A, USA: IEEE Press, 2009: 1556-1560.

[56]Carrillo R E, Barner K E. Lorentzian based iterative hard thresholding for compressed sensing[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic: IEEE Computer Society, 2011: 3664-3667.

[57]Carrillo R E, Barner K E. Lorentzian iterative hard thresholding: Robust compressed sensing with prior information [J]. IEEE Transactions on Signal Processing, 2013, 61(19):4822-4833.

[58]叶蕾,杨震,王天荆, 等. 行阶梯观测矩阵、对偶仿射尺度内点重构算法下的语音压缩感知[J]. 电子学报,2012,40(3):429-434.

Ye Lei, Yang Zhen, Wang Tianjing, et al. Compressed sensing of speech signal based on row echelon measurement matrix and dual affine scaling interior point reconstruction method [J]. Acta Electronica Sinica, 2012, 40(3):429-434.

[59]叶蕾, 杨震, 孙林慧,等. 行阶梯观测矩阵下语音压缩感知观测序列的Volterra+Wiener模型研究[J]. 信号处理, 2013, 29(7):816-822.

Ye Lei, Yang Zhen, Sun Linhui, et al. Research on volterra and wiener model of compressed sensing measurement of speech signal based on row echelon matrix[J]. Journal of Signal Processing, 2013, 29(7):816-822.

[60]叶蕾. 语音信号压缩感知关键技术研究[D]. 南京:南京邮电大学,2014.

Ye Lei. Research on key issues of speech compressed sensing[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2014.

[61]潘海琦, 杨震, 徐珑婷,等. 一种基于压缩感知的说话人识别参数分析[J]. 数据采集与处理, 2015,30(2):399-407.

Pan Haiqi, Yang Zhen, Xu Longting, et al. Parameter of speaker recognition based on compressed sensing[J]. Journal of Data Acquisition and Processing, 2015,30(2):399-407.

[62]王韦刚. 基于压缩感知的宽带频谱检测技术研究[D]. 南京:南京邮电大学,2015.

Wang Weigang. Research of wideband spectrum detection based on compressed sensing[D]. Nanjing: Nanjing University of Posts and Telecommunications,2015.

[63]康荣宗, 田鹏武, 于宏毅. 一种基于选择性测量的自适应压缩感知方法[J]. 物理学报, 2014, 63(20):139-146.

Kang Rongzong, Tian Pengwu, Yu Hongyi. An adaptive compressed sensing method based on selective measure[J]. Acta Physica Sinica, 2014,63(20):139-146.

[64]Harmany Z, Thompson D, Willett R, et al. Gradient projection for linearly constrained convex optimization in sparse signal recovery[C]∥ IEEE International Conference on Image Processing. Hong Kong: IEEE, 2010:3361-3364.

[65]杨真真, 杨震. 含噪语音压缩与重构的自适应共轭梯度投影算法[J]. 仪器仪表学报, 2012, 33(10):2200-2207.

Yang Zhenzhen, Yang Zhen. Adaptive conjudate gradient projection algorithm for noisy speech compression and reconstruction[J]. Chinese Journal of Scientific Instrument, 2012, 33(10):2200-2207.

[66]杨真真. 压缩感知重构技术及其在图像融合中的应用研究[D].南京:南京邮电大学,2014.

Yang Zhenzhen. Research on compressed sensing reconstruction technology and its application in image fusion[D]. Nanjing : Nanjing University of Posts and Telecommunications, 2014.

[67]孙林慧. 语音压缩感知关键技术研究[D]. 南京:南京邮电大学,2012.

Sun Linhui. Research on the key issues of compressed speech sensing[D]. Nanjing : Nanjing University of Posts and Telecommunications, 2012.

[68]杨真真,杨震. 压缩感知中基于快速交替方向乘子法的I_0正则化信号重构[J]. 电子与信息学报,2013,35(4):826-831.

Yang Zhenzhen, Yang Zhen. Regularisation signal reconstruction based on fast alternating direction method of multipliers for compressed sensing[J]. Journal of Electronics & Information Technology, 2013, 35(4):826-831.

[69]Tipping M E. Sparse Bayesian learning and the relevance vector machine[J]. Journal of Machine Learning Research, 2001, 1(3):211-244.

[70]Sigg C D, Dikk T, Buhmann J M. Speech enhancement using generative dictionary learning[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2012, 20(6): 1698-1712.

[71]Ji S, Xue Y, Carin L. Bayesian compressive sensing[J]. IEEE Transactions on Signal Processing, 2008, 56(6):2346-2356.

[72]Zhang Z, Rao B D. Recovery of block sparse signals using the framework of block sparse Bayesian learning[C]∥ IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE, 2012:3345-3348.

Key Issues of Robust Compressed Sensing in Speech Signal Processing

Yang Zhen, Xu Longting

(Key Laboratory of Broadband Wireless Communication and Sensor Network Technology of Ministry of Education, Nanjing University of Posts and Telecommunications, Nanjing, 210003, China)

Compressed sensing (CS) is widely used in different areas. The key technologies of compressed sensing include the selection of sparse matrix, the construction of the measurement matrix, and the design of the reconstruction algorithm. Speech signal usually has special structural characteristics in the measurement matrix and reconstruction algorithm. In actual applications, noises may inevitably exist. In compressed sensing theory, the reconstruction system is nonlinear and sensitive to noise. Therefore, we need to study the robust compressed sensing technology. This technique would have utilizable perspective, if the robustness problem gets solved. The paper begins with the concept of compressed sensing, then analyses the effects brought by various noises. When it comes to the solutions to the noises in the speech signal, this paper focuses on the introduction of robust projection operator and robust recovery algorithms. Finally, the possible future research directions are prospected.

compressed sensing; robustness; reconstruction algorithm; speech signal; projection operator

国家自然科学基金(61671252,61271335)资助项目;南京邮电大学校科研基金(NY214191)资助项目。

2017-01-20;

2017-02-27

TN912.3

A

杨震(1961-),男,教授,博士生导师,研究方向:语音处理与现代语音通信及网络通信技术,E-mail:yangz@njupt.edu.cn。

徐珑婷(1989-),女,博士研究生,研究方向:语音处理与说话人识别技术。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!