时间:2024-08-31
刘 婷, 陈 宁
(华东理工大学信息科学与工程学院,上海 200237)
面向翻唱歌曲识别的相似度融合算法
刘 婷, 陈 宁
(华东理工大学信息科学与工程学院,上海 200237)
提出了一种面向翻唱歌曲识别的相似度融合算法。该算法将基于乐理特征的相似度和基于人耳感知特性的相似度融合,通过把基于节拍跟踪和瞬时频率音级轮廓(IF-PCP)的最大互相关相似度、基于和声音级轮廓(HPCP)的Qmax相似度、基于耳蜗音级轮廓(CPCP)的Qmax相似度映射到同一个多维空间,并计算其几何距离来进行相似度融合。该算法使得IF-PCP特征的节拍速度不变性、HPCP特征的和声优势、CPCP特征的人耳感知特性有效融合。为了验证算法的有效性,采用包含212首不同歌曲共502个版本的数据库作为测试对象,以平均正确率均值和TOP-N作为测试指标对算法性能进行测试。测试结果表明,与基于单一相似度算法相比,该融合算法可提高翻唱歌曲识别准确率。
相似度融合; 节拍追踪; 瞬时频率音级轮廓; 和声音级轮廓; 耳蜗音级轮廓;Qmax; 翻唱歌曲识别
随着互联网的快速发展、云概念的出现,海量的音频信息充斥着人们的生活,从而使得基于内容的音乐信息检索(Music Information Retrieval,MIR)近些年来得到了快速发展。翻唱歌曲识别(Cover Song Identification,CSI)作为MIR领域的一个研究热点引起了研究者的广泛关注。CSI技术具有重要的研究价值,比如:音乐版权的维护与认证、音乐创作辅助、以及多版本音乐的检索、收集与欣赏等。
翻唱歌曲识别旨在找到海量音乐信息中同源音乐的不同版本。由于获取翻唱版本的方式不同,翻唱歌曲可能会在音色、节奏、基调、速度、和声、歌词、整体结构等重要音乐要素存在差异甚至完全不同,因此翻唱歌曲识别成为了一项极具挑战性的研究工作。
从近10年的研究来看,翻唱歌曲识别研究主要分为特征提取和相似度计算两个方面。1999年Fujishima[1]首先提出了音级轮廓(Pitch Class Profile,PCP)的概念,或称Chroma;文献[2]用实验证明了PCP对噪声以及非音调的声音鲁棒与绝对音调、音色、演奏乐器、音量、力度无关;Ellis等[3]在PCP的基础上提出了基于节拍跟踪和瞬时频率的PCP(Instantaneous Frequency -Pitch Class Profile,IF-PCP),算法中采用节拍对齐的方法消除不同音乐在速度方面的差异,获得了速度不变性;Gomez和Serra[4-5]考虑了谐波的存在,提出了PCP的另一种改进算法,采用和声加权的方式提取基于和声的PCP(Harmonic Pitch Class Profile,HPCP);Chen等[6]提出了基于耳蜗听觉特性的PCP(Cochlear Pitch Class Profile,CPCP),通过在原始PCP模型中引入人耳听觉感知特性,从而大幅提高了特征在器乐伴奏变化较大情况下的识别能力。在计算相似度距离方面,文献[3]采用计算两首音乐Chroma 特征序列的互相关(Cross-Correlate,CC)系数并取其峰值作为相似性度量,但计算代价高;文献[4-5]通过构造基于HPCP特征的相干递归图(Cross-Recurrence Plot,CRP)并对其进行相干递归分析(Recurrence Quantification Analysis,RQA)来获取音乐相似度,称为Qmax。
不同的特征及相似度算法均有优缺点,因此对由特定特征与相似度算法结合得到的相似度进行融合,能够更好地识别翻唱歌曲。文献[7]提出将基于Pitch Salience Function[8]特征与基于HPCP特征的相似度进行融合,达到了比单一算法更高的识别率,然而这种融合算法采用的特征均是基于音乐理论提取的特征,因此存在冗余,而且忽略了音乐中人声的影响,因此该算法在背景音乐不强的情况下,很难达到理想的效果。
本文提出的相似度融合算法以3种不同特性的特征为基础,其中基于节拍跟踪的IF-PCP运用节拍对齐的方式来消除不同音乐的速度差异,对于节奏感较强的翻唱歌曲有很好的识别能力;而HPCP考虑了和声的存在,采用和声加权的方法,因此对由纯乐器演奏的音乐有很好的鲁棒性,也能更好地识别此类翻唱歌曲。但以上两种特征都是基于音乐理论提出的,而在流行歌曲盛行的时代,大多歌曲都有很多歌手翻唱,为了更好地识别,本文增加了CPCP特征,该特征运用了人耳对声音的感知特性,因此能够更好地识别带有人声的翻唱歌曲。该融合算法在特征选择方面,既考虑了音乐的要素,又考虑了人声的存在;在相似度选择方面,本文采用了全局匹配算法最大互相关以及局部匹配算法Qmax,两种相似性度量方法既考虑了准确性又考虑了计算速度,从而有效提高了翻唱歌曲识别的准确率。
1.1 特征提取
1.1.1 基于节拍跟踪的IF-PCP 文献[3]提出的IF-PCP通过计算瞬时频率频谱而非短时傅里叶变换(Short-time Fourier Transform,STFT)得到输入音频信号的频谱,然后通过频谱映射[9],将每一帧的能量压缩到12个音级上,解决了PCP因STFT导致频谱粗糙的问题。之后采用节拍跟踪算法[10]获得节拍位置,用获得的节拍信息对IF-PCP特征分段,得到基于节拍跟踪的IF-PCP,从而实现了Chroma特征的节拍速度不变性。
1.1.2 HPCP的提取 HPCP考虑了和声谐波的存在,采用和声加权的方式,首先通过STFT得到信号频谱,再进行峰值检测处理,对50~5 kHz的各个峰值的频谱进行白化处理,最后通过频谱映射将频谱峰值能量映射到12个音级上,得到一个12维的特征向量。向量中每一维元素的值可以通过式(1)[2]计算得到。
(1)
其中:ai和fi是第i个信号峰的幅值与频率;w(n,fi)为频率fi的信号对于半音音级n的权重,w(n,fi)的计算过程详见参考文献[2]。
1.1.3 CPCP的提取 文献[6]分析了原始PCP中存在的不足:一方面原始PCP中采用傅里叶变换(Fast Fourier Transform,FFT)对频率进行线性分割,而人耳对频率的感知是成对数的;另一方面原始PCP中没有考虑人耳对音乐不同频率的敏感度不同这一因素。因此文献[6]提出了改进算法(CPCP),弥补了原始PCP的缺陷,从而在音乐背景差异极大的情况下能够更好地识别流行歌曲翻唱。该算法首先将音频信号进行分帧处理,然后进行等响应曲线滤波、听觉滤波器组滤波、半波整流和下采样等模拟人耳听觉感知特性的操作,最后对所得信号进行音级谱映射和基于非负矩阵分解的降维处理,得到CPCP特征向量。
1.2 相似度计算
1.2.1 互相关 文献[3]中计算了两个特征的互相关系数,并取其峰值作为相似性度量。算法中通过式(2)计算查询歌曲Chroma与样本歌曲Chroma的互相关矩阵,取矩阵中最大值作为相似度候补。将查询歌曲的Chroma按照音级进行循环移位(例如C、#C、D、#D、E、F、#F、G、#G、A、#A、B移位后变成#C、D、#D、E、F、#F、G、#G、A、#A、B、C)得到新的Chroma,接着求循环移位后的查询歌曲Chroma与原样本歌曲Chroma的互相关矩阵,从而得到一个新的相似度候补。依次类推进行11次循环移位后得到12个相似度候补,最后取12个相似度候补中的最大值作为两首歌曲的相似度。互相关矩阵的计算如式(2)所示。
(2)
其中:k是查询歌曲Q特征矩阵的列数;l是样本歌曲S特征矩阵的列数;∘表示互相关。
1.2.2 相干递归图(CRP)和Qmax距离的计算 Qmax距离是计算音乐X与音乐Y最长特征相似部分时间段的长度。首先通过CRP[5,11-12]构建相似矩阵,相干递归图是一个二值相似矩阵C,矩阵中的每个元素通过式(3)[5]计算得到。
(3)
(1)首先对递归矩阵Q进行初始化,令Q1,j=Q2,j=Qi,1=Qi,2=0,i=1,…,Nx,j=1,…,Ny。
(2)用动态规划方法求得递归矩阵Q,Q中的每个值由式(4)计算得到,
(4)
(3)根据式(5)求得Qmax。
(5)
其中i=1,…,Nx,j=1,…Ny。
2.1 各种单一算法的优势分析
2.1.1 基于节拍跟踪的IF-PCP选择一首节奏感较强的歌曲‘Addictedtolove’作为实验对象,分别对由RobertPalmer和TinaTurner演唱的不同版本提取IF-PCP、HPCP、CPCP特征,并计算得到CRP图,如图1所示。比较3个图可知,基于节拍跟踪的IF-PCP特征提取方法明显优于其他两种特征,由此可得对于节奏感比较强的音乐,采用基于节拍跟踪的IF-PCP能够更好地识别翻唱歌曲。
图1 Robert Palmer与Tina Turner 演唱的‘Addicted to love’的CRP图Fig.1 CRP of ‘Addicted to love’ perform by Robert Palmer and Tina Turner
2.1.2 HPCP HPCP因考虑了和声的存在,对背景音乐如演奏乐器变化比较大的纯音乐能够更好地识别。为了验证HPCP的有效性,选择分别由Coldplay与David Garrett演奏的不同版本纯音乐‘Viva La Vida’作为实验对象,这两首歌曲分别由不同的乐器演奏。图2显示了这两首歌的CRP图,由图得知,HPCP特征的识别准确率明显优于基于节拍跟踪的IF-PCP与CPCP特征,因此对于这种由不同乐器演奏纯音乐的翻唱歌曲的识别来说HPCP更有效。
图2 Coldplay与David Garrett演唱的‘Viva La Vida’ 的CRP图Fig.2 CRP of ‘Viva La Vida’ perform by Coldplay and David Garrett
2.1.3 CPCP CPCP由于考虑了人耳的听觉感知特性,因此能够很好地识别带有人声的翻唱歌曲。为了验证CPCP的有效性,选择分别由筷子兄弟和回音哥演唱的“小苹果”,这两首歌中人声部分比较突出。图3示出了这两首歌的CRP图,比较3种特征的效果,图3(c)图的效果更好,因此对于有人声的翻唱歌曲的识别,CPCP特征更具优势。
图3 筷子兄弟与回音哥演唱的“小苹果“ 的CRP图Fig.3 CRP of ‘Viva La Vida’ perform by Chopsticks Brothers and Echo Brother
2.2 相似度矩阵融合算法
本文通过将各个特征及相似度进行融合,补偿各个特征及相似度算法的缺陷,从而提高翻唱歌曲识别的准确率。本文的融合算法框架如图4所示。算法步骤如下:
(6)
(3)将一首查询音乐q与音乐库中某一首音乐s,用不同特征提取算法及相似度计算方法计算出的相似度距离组成一个新的距离向量,如式(7)[7]所示。
(7)
(4)通过几何方法得到一个新的相似度矩阵R,R中每一个元素由式(8)[7]计算得到。
(8)
图4 融合算法框架Fig.4 System of fusion algorithm
3.1 实验数据库
为了验证算法的有效性,实验中采用的音乐库包含212首不同歌曲的共502个版本,在相同条件下,对单个相似度的原始算法、两个相似度融合的算法以及3个相似度融合的算法作对比。
3.2 实验采用的评估算法
采用平均正确率均值 (Mean Average Precision,MAP)[5]和TOP-N作为判断翻唱歌曲识别能力的标准。
TOP-N是指将CSI的结果根据相似度从高到低排列后,返回的相似度列表中排名前N的歌曲中翻唱歌曲的个数,本文实验中N=3。
MAP的计算公式[5]如下:
(9)
式中:N为识别过程中作为查询歌曲的数目,本文实验中N=502。
(10)
式中:Cq为查询歌曲q的翻唱版本数目,本文实验中其值为2~9;r是相似度列表中的名次;S为识别结束后返回的歌曲数目,本文实验中S=501;当相似度列表在名次r处为查询歌曲q的翻唱版本,Iq(r)=1,否则Iq(r)=0;Pq(r)是在名次r处的准确率,
(11)
式中r=1,2,…,501。
3.3 实验结果与分析
表1示出了不同算法对翻唱歌曲识别的准确率。实验结果表明相似度矩阵融合后,MAP值较单个相似度算法的MAP值有明显提高,通过3个相似度矩阵融合得到的MAP值最高。
表1 不同相似度距离融合的翻唱歌曲识别结果Table 1 Cover song identification result of different similarity distance fusion
由表1得到以下结论:
(1)IF-PCP+CC+HPCP+Qmax的MAP比IF-PCP+CC的MAP提高了21.29%,TOP-3提高了27.16%,对HPCP+Qmax而言,MAP仅提高了0.06%,TOP-3提高了0.98%,但它由两个相似度融合,计算时间复杂度会有大幅提高,而IF-PCP和HPCP两种特征都是基于音乐理论提取的特征,有一定程度的相似性,因此由两个相似的特征计算得到的相似度的融合不能在保证时间复杂度的前提下使翻唱识别准确率得到大幅的提高。
(2)HPCP+Qmax+CPCP+Qmax的MAP比HPCP+Qmax的MAP提高了1.18%,TOP-3提高了2.6%,比CPCP+Qmax的MAP提高了2.5%,TOP-3提高了1.95%,IF-PCP+CC+CPCP+Qmax的MAP比IF-PCP+CC的MAP提高了19.05%,TOP-3提高了17.69%,虽然计算代价增加,但准确率有明显提高,由此可得两个不同特性的特征计算得到的相似度的融合能提高翻唱识别准确率。
(3)IF-PCP+CC+HPCP+Qmax+CPCP +Qmax相较于单个算法而言,MAP提高了2.41%~23.64%,TOP-3提高了3.90%~31.69%;而相较于两两融合的算法,MAP值提高了1.23%~4.60%,TOP-3提高了1.91%~11.89%,由此可得3个特征融合的算法更能提高翻唱歌曲识别的准确率。
由此验证本文提出的算法能在一定程度上提高翻唱歌曲识别准确率。
本文提出了一种面向翻唱歌曲识别的将基于乐理特征的相似度和基于人耳感知特性的相似度融合的算法。算法中融合了IF-PCP特征的节拍速度不变性、HPCP特征的和声优势、CPCP特征的人耳感知特性,使得在翻唱形式多样(演奏乐器不同、演唱者不同、节拍速度不同等)的音乐库中相较于单个特征算法而言,翻唱歌曲的识别准确率大幅提高。但本文算法只是在流行歌曲方面有所突破,如何才能让其适用于更多类型的歌曲,在未来的研究中将寻找更好的融合算法来解决这一问题。另一方面由于采用多种特征提取与相似度计算方法,导致时间复杂度增加,在以后的研究中可以采用GPU并行计算来提高算法的效率。
[1] FUJISHIMA T.Realtime chord recognition of musical sound:A system using common lisp music[C]//Proceedings of the International Computer Music Association.ICMC.Beijing:[s.n.],1999:464-467.
[2] 张秀,李念祖,李伟.Chroma 特征的鲁棒性验证[J].计算机科学,2014,41(6A):24-28.
[3] ELLIS D P W,POLINER G E.Identifying cover songs’ with chroma features and dynamic programming beat tracking[C]// IEEE International Conference on Acoustics,Speech and Signal Processing,2007.Honolulu:IEEE,2007:IV-1429-IV-1432.
[5] SERRA J,SERRA X,ANDRZEJAK R G.Cross recurrence quantification for cover song identification [J].New Journal of Physics,2009,11(9):093017.
[6] CHEN Ning,DOWNIE J S,XIAO Haidong,etal.Cochlear pitch class profile for cover song identification [J].Applied Acoustics,2015,99:92-96.
[7] DEGANI A,DALAI M,LEONARDI R,etal.A heuristic for distance fusion in cover song identification[C]// 14th International Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS),2013.USA:IEEE,2013:1-4.
[8] AMATRIAIN X,BONADA J,LOSCOS A,etal.Spectral Processing[M].USA:John Wiley & Sons,2002:373-438.
[9] 王峰.美尔音级轮廓特征在音乐和弦识别算法中的应用研究[D].太原:太原理工大学,2010.
[10] ELLIS D P W.Beat tracking by dynamic programming [J].Journal of New Music Research,2007,36(1):51-60.
[11] MARWAN N,ROMANO M C,THIEL M,etal.Recurrence plots for the analysis of complex systems[J].Physics Reports,2007,438(5):237-329.
[12] SERRA J.Identification of versions of the same musical composition by processing audio descriptions[D].Barcelona :Pompeu Fabra University,2011.
Similarity Distance Fusion Algorithm in Cover Song Identification
LIU Ting, CHEN Ning
(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)
This paper proposes a new similarity distance fusion algorithm that fuses the similarity distance of music theory feature and auditory perceptual feature.In the proposed algorithm,three similarity distances,IF-PCP based on beat tracing with maximum cross-correlation measure,HPCP withQmaxmeasure,and CPCP withQmaxmeasure,are projected in a multi-dimensional space and then the geometric distance as the fusion similarity distance is computed.This algorithm can effectively integrate the beat speed invariance of IF-PCP,the harmonic advantage of HPCP,and the auditory perceptual of CPCP.An experiment on a database with 502 versions of 212 different songs is made in this work.By mean of MAP and TOP-N as the performance indicator of the cover song identification,it is shown that the proposed algorithm in this paper can improve the precision of cover song identification greatly.
similarity distance fusion; beat tracing; IF-PCP; HPCP; CPCP;Qmax; cover song identification
1006-3080(2016)06-0845-06
10.14135/j.cnki.1006-3080.2016.06.015
2015-12-24
国家自然科学基金(61271349)
刘 婷(1991-),女,河南人,硕士生,主要研究方向为音乐信息检索。E-mail: 18964647728@163.com
陈 宁,E-mail:chenning_750210@163.com
TP391
A
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!