当前位置:首页 期刊杂志

基于音频内容和歌词文本相似度融合的翻唱歌曲识别模型

时间:2024-08-31

陈颖呈,陈 宁

(华东理工大学信息科学与工程学院,上海200237)

音乐流媒体技术的快速发展使得在线音乐数量呈指数增长,如何从海量数据集中检索目标歌曲的翻唱版本成为极具挑战的问题。由于翻唱歌曲与原版歌曲在音调、节奏、结构、旋律、和声、音色、语言上均有可能存在差异,因此面向翻唱歌曲检索的相似度计算模型研究是音乐信息检索领域的难点问题。

考虑到翻唱版本之间基本保持不变的内容是和声演进和主旋律,目前用于翻唱检索的特征提取方法大致可分为两类:音级轮廓(Pitch Class Profile,PCP)特征和主旋律(Main Melody,MLD)特征。PCP特征对于音调及响度变化具有很好的鲁棒性[1],为了进一步提高特征的分辨率,文献[2]将人耳听觉感知特性引入传统的PCP模型,构造了耳蜗音级轮廓(Cochlear Pitch Class Profile,CPCP)特征。为了解决翻唱版本间可能存在节拍差异的问题,文献[3]将节拍提取与音级轮廓特征结合,构造了节拍同步音级轮廓(Beat-Synchronous Chroma,BSC)特征。

主旋律是另一种常用于翻唱歌曲识别的特征[4],但该方法在多音源情况下的准确度会受到影响。

在相似度计算方面,主流方法包括Qmax[5]、Dmax[6]和CC[7]算法。考虑到不同的特征提取和相似度计算方法在表现音乐相似度方面有很强的互补性,为了提高翻唱歌曲识别(CSI)的准确率,近期有学者提出了多种相似度融合方法。文献[8]将音乐原声、主旋律及伴奏特征的相似度以直接连接的方法进行融合。文献[9]利用基于不同音频特征的相似度分数训练分类器,以判断参考歌曲与测试歌曲是否属于同一翻唱组合。文献[10]利用生物领域中的相似度网络融合(Similarity Network Fusion,SNF)[11]算法完成一级融合,然后采用混合马尔可夫模型对融合后的相似度进行二级融合。

基于张量积图融合的音乐相似度模型(CSNFTPGs)[12]首先采用SNF技术对3种不同特征的相似度进行两两融合,然后采用张量积图融合技术将多个融合后的相似度矩阵映射到高维空间完成二级融合。虽然基于张量积图融合的算法取得了很好的识别效果,但仍有可改进的方面:(1)采用手工特征很难表现音乐内容中蕴含的非线性深层语义特性,而且很难实现良好的泛化能力。(2)相似度高维空间几何结构的学习导致计算复杂度的增加,无法适应实际应用。(3)忽略了音乐歌词内容在表现音乐相似性方面的优势。

为了充分利用音频内容和歌词在表现音乐相似性方面的互补性,文献[13]提出了基于多模态信息融合的翻唱检索模型。该模型通过融合歌曲元数据、歌词和音频三方面的信息,从而显著提高了CSI 的准确性。本文受此启发,提出了一种改进的基于多模态相似度融合的CSI 模型,对文献[12]模型进行了改进。首先,在音频特征提取阶段,为了提高特征在表现音乐非线性深层语义的特性,采用了基于深度学习的音级轮廓(Deep Pitch Class Profile,DPCP)特征[14];其次,由于不同的文本特征具有一定的互补性[15],因此,在歌词特征提取过程中,分别采用词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF·IDF)[16]及InferSent[17]技术,抓住重点词语频次特性和句子的双向语义依赖特性;最后,采用SNF算法对基于歌词和音频内容的相似度进行非线性融合以充分利用两种模态的信息。为了验证算法的有效性,构建了Covers2326多模态数据集。实验结果表明,与文献[12]算法相比,本文模型的识别准确率有了大幅度的提高。

1 CSI模型

本文提出的基于多模态信息融合的CSI模型结构如图1所示,采用的翻唱示例样本信息见表1。

1.1 特征提取

1.1.1 音频内容特征提取方法 为了确保音频特征提取的鲁棒性和泛化能力,采用文献[14]提出的基于深度学习的音级轮廓特征提取模型。该模型首先对输入的采样率为44 100 Hz的音频信号进行帧长为8 192、时移为4 410的分帧处理;然后,对每帧音频进行离散时间傅里叶变换(Discrete-Time Fourier Transform,STFT),并求取对数能量谱;最后,将对数能量谱作为深度神经网络(Deep Neural Network,DNN)的输入。

DNN 共包含3个隐含层,每个隐含层有512个节点并将Sigmoid 激活函数作用到模型的输出层。网络训练时,采用二进制交叉熵作为损失函数计算网络的输出向量标签与实际标签的差值。损失函数的计算公式如下:

为了防止过拟合,每个隐含层后面增加了舍弃概率为0.5的dropout 层。每迭代20次之后,若验证集的准确率没有增加,程序会自动停止训练。

1.1.2 歌词特征提取方法 文献[13]指出由于翻唱歌曲的歌词内容在语义上有高度相似性,因此歌词语义分析的引入有助于提升翻唱歌曲检索的准确率。本文分别采用TF·IDF和InferSent 技术对歌词进行分析,以描述歌词之间基于词频和基于句子双向语义依赖的相似性。

TF·IDF由词频(TF)和逆向文件频率(IDF)的乘积组成,词频是指某一给定的词在某一文档中出现的频率,逆向文件频率是词在语料库中普遍性的度量。如果一个词或短语在一篇文章中频繁出现,而在其他文章中很少出现,则认为该词或短语具有良好的分类能力。TF和IDF的计算方法如式(2)和式(3)所示。

图1 CSI 模型框图Fig.1 Block diagram of CSI model

表1 3组翻唱歌曲的信息Table 1 Tracks'information of threecover sets

InferSent 句子编码具有以下优势:(1)能抓住多个单词或短语之间的内在关系;(2)对于不同长度的句子,句子嵌入维度是一致的(本文将其设置为2 048),因此有效减少了计算复杂度且不会造成维度灾难。

图 2 InferSent 句子编码模型Fig.2 InferSent sentence encoding model

1.2 相似度计算

采用Qmax 相似度算法计算基于DPCP特征的音频内容相似度矩阵,同时采用余弦距离(Cosine Distance,CD)分别计算基于InferSent 及TF·IDF特征的歌词相似度。本文采用基于InferSent 和基于TF·IDF特征的相似度的均值作为歌词相似度。

采用CD方法分别对歌词的TF·IDF特征和Infer-Sent 特征进行相似度计算,计算方法如下:

其中:l1和l2分别表示歌曲歌词及其翻唱歌曲歌词的特征向量;I的值越小表示两首歌的歌词越相近。

1.3 相似度融合

传统的翻唱歌曲识别是基于音频内容实现的,文献[13]首次将歌曲名与歌词引入CSI领域,研究证明了不同模态的信息具有一定的互补性。为了充分利用音频内容与歌词间的互补性,本文采用SNF[11]算法融合音频相似度及平均化处理后的歌词相似度,具体实现步骤如下:

采用式(11)对歌曲的相似度进行归一化,以融合多种相似度矩阵。

2 实验结果

2.1 数据库的构建

为了验证模型的有效性,本文构造了面向翻唱检索的多模态样本库。首先根据Second Hand Song(SHS)(https://secondhandsongs.com/)提供的歌曲ID,在7digital 网站(https://www.7digital.com/)上爬取了12 730首翻唱歌曲的音频文件。然后利用Million Song Dataset 网 站(http://millionsongdataset.com/)将12 730首歌曲的音频文件ID映射为相应的歌词ID,并利用Musixmatch 网站(https://www.musixmatch.com/)提供的API 获取6 257首歌曲的歌词。在此过程中,一方面去除了歌词完全相同的样本,另一方面利用多元翻译(Multi-source Translation,MTrans)将所有非英文的歌词全部转换成英文,最终,构建了Covers 2326多模态数据库。该数据库由6 257首歌曲的音频文件及其相应的歌词文本文件组成,共分为2 326个翻唱组合。

2.2 评估指标

为了验证基于多模态的翻唱歌曲检索算法的性能,选取TOP-10[19]、平均正确率均值(Mean Average Precision,MAP)、平均排序倒数均值(Mean averaged Reciprocal Rank, MaRR)及秩均值(Mean Rank, MR)作为评价指标。其中,TOP-10、MAP、MaRR 的值越大表明基于多模态的算法性能越好,而MR 的值越小表明其性能越好。

2.3 识别准确率对比

基于单模态的翻唱歌曲识别准确率如表2所示。实验结果表明基于深度学习的音频特征提取算法(DPCP[14])优于基于手工特征的方法(CPCP[2]、MLD[4]及BSC[3]);基于歌词分析的方法远远优于基于音频的方法。

基于多模态融合的翻唱歌曲识别准确率如表3所示。实验结果表明在歌词特征一定的情况下,包含DPCP的多模态相似度融合算法优于包含CPCP、MLD或BSC的多模态融合算法,从而进一步证明了基于深度学习的音频特征提取算法优于传统的手工特征提取方法。

表2 基于单模态的翻唱歌曲识别算法性能比较Table 2 CSI performance comparison of algorithms based on singlemodal

通过对比基于InferSent、TF·IDF及InferSent*TF·IDF的CSI 识别准确率,可以看出不同特征的歌词相似度具有互补性。(1)DPCP_Qmax+InferSent 的融合算法优于DPCP_Qmax 或InferSent,DPCP_Qmax+TF·IDF优于DPCP、Qmax 或TF·IDF,说明音频内容分析与歌词文本分析在一定程度上也具有互补性。(2)DPCP_Qmax+InferSent*TF·IDF的融合算法优于DPCP_Qmax+InferSent 或DPCP_Qmax+TF·IDF说明不同的文本特征之间存在一定的共性和互补性。(3)本文模型(DPCP_Qmax+InferSent*TF·IDF)优于CSNFTPGs。

为了进一步说明本文模型优于CSNF-TPGs,选取Covers2326数据集中的257首歌曲作为实验对象进行对比实验,得到的相似度矩阵如图3所示。其中,图3(a)表示CSNF-TPGs的相似度矩阵及其缩略图的扩大版本,图3(b)表示本文模型的相似度矩阵及其缩略图的扩大版本。实际上,该图是一个257×257的矩阵表示,矩阵中每个点的大小表示不同歌曲间的相似度。为了更加清晰地看出歌曲间的相似程度,从上述257首歌曲的相似度矩阵中截取10首歌曲的相似度,其中,每个绿色的线框表示一个翻唱组合,因而,这10首歌曲共分为5个翻唱组合。可以明显看出,DPCP_Qmax+InferSent*TF·IDF比CSNFTPGs的效果好,这表明利用多模态信息融合的方法能够充分结合歌曲的不同方面的信息,增加组内相似性及减少组间相似性,从而有效地减少相似度矩阵中存在的噪声。

2.4 模型的时间复杂度

为了对比基于张量积图融合的音乐相似度模型[12]与本文的基于多模态的CSI模型的时间复杂度,选取Covers2326数据集作为实验对象,分别计算两种模型相似度融合的时间复杂度。为了保证这两种算法的运行环境相同,实验设备统一为8 GB内存,处理器型号为Intel(R)Core(TM)i7-7700 CPU@3.60 GHz,MATLAB2014a。

两种模型的时间复杂度如表4所示,其中,DPCP_Qmax+InferSent*TF·IDF模型的运行时间为134.01 s,CSNF-TPGs 模型的运行时间为15 220.27 s。本文模型比基于张量积图融合的音乐相似度模型在计算速度上提高了112 倍,表明DPCP_Qmax+InferSent*TF·IDF模型的时间复杂度更低,更具有实用性。

表3 基于多模态的翻唱歌曲识别算法性能比较Table3 CSIperformance comparison of algorithms based on multi-modal

图3 CSNF-TPGs 与本文模型的性能比较Fig.3 Performancecomparison between CSNF-TPGs and the proposed model

表4 模型时间复杂度比较Table4 Comparison of timecomplexity between two models

3 结 论

本文受到文献[13]的启发,提出了基于音频内容和歌词相似度融合的翻唱歌曲识别模型。该模型充分利用音乐音频内容和音乐歌词在表现音乐相似性方面的互补性,从而达到了比基于单个音频特征或音频特征相似度融合方法更高的识别准确率。同时,由于文本处理速度比音频处理速度快,且张量积图融合的速度较慢,因此所提出算法实现了更低的时间复杂度。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!