时间:2024-09-03
赵 力 梁瑞宇,2 谢 跃 庄东哲
(1.东南大学信息科学工程学院,南京, 210096; 2.南京工程学院通信工程学院,南京, 211167 ; 3.中国人民公安大学侦查学院,北京, 100038)
语音测谎技术研究现状与展望*
赵 力1梁瑞宇1,2谢 跃1庄东哲3
(1.东南大学信息科学工程学院,南京, 210096; 2.南京工程学院通信工程学院,南京, 211167 ; 3.中国人民公安大学侦查学院,北京, 100038)
早期的谎言测试技术易受个人和环境影响,同时反测谎技术对其影响也很大。基于脑电信号的测谎技术虽然能够直接观察撒谎行为发生时内部相关脑区的神经活动,更加客观地揭示撒谎活动的内部规律,但是此类技术所需的专业设备庞大而贵重。相比之下,语音测谎技术具有时空跨越性和高隐蔽性等优点。本文介绍当前测谎技术的发展情况和基本原理,介绍并分析了当前的非语音测谎指标和声学相关指标的类型及特点;然后介绍了目前公开的几种语音相关的测谎数据库,并重点阐述了语音测谎分类算法的研究进展;最后从汉语测谎语料库建立、语音特征表达、反测谎技术研究、理论研究和配套工作开展等方面对语音测谎技术进行了展望。
谎言;测谎仪;语音信号处理;特征提取
在人类的交往中,谎言检测一直都是人们比较感兴趣的问题[1]。说谎是人类社会普遍的心理现象,是指明知真相的情况下故意对事实进行隐瞒、歪曲或凭空编造虚假信息以误导他人的行为。研究表明,人类不擅长测谎,通常基于直觉判断[2],因此准确率仅比随机概率高一点点[3],也可以认为人们检测谎言的能力接近于猜测。因此,设计一个自动识别系统来识别谎言,可能要比人类自己识别的效果要好。
“测谎”的基本原理是人在说谎时的心理变化必然引起一些生理参数(如皮肤电、心跳、血压、呼吸脑电波和声音)的变化,通常它只受植物神经制约而很难受大脑意识控制。因此传统测谎技术是将心理学和生理学等多种学科交叉融和,通过电生理参数测试系统对个体内心隐瞒意图和状态进行探测。其基本过程是首先由测谎员根据案情编题,然后依照题目逐个讯问被试者,同时用测谎仪描记下被试者的生理指标变化,最后测谎员依据欺骗时生理指标相对于诚实作答时生理指标的改变规律来推测被试者是否撒谎。测谎所涉及的问题主要有3类:中性问题,相关或主题问题和不相关或对照问题。现在使用的方法主要是向被测试者提出一些能对其形成不同程度刺激的问题,具体测试方法[4]包括:(1)准绳问题测试法;(2)犯罪情节测试法[5-6];(3)紧张峰测试法;(4)相关-不相关问题交叉测试法;(5)怀疑知情参与测试法;(6)缄默测试法;(7)真假对比测试法(强迫招认测试法)。目前,国际常用方法有犯罪情节测试法和准绳问题测试法两种。中国主要应用前种,而美国偏重于后者。
在谎言检测技术方面,最常见的是测谎仪。早在1895年,意大利犯罪心理学家C.龙勃罗梭首次使用科学仪器进行测谎。随着科学技术的发展,测谎器研究工作不断扩展,各种各样的生理指标都被用来进行测谎研究。可用的测谎指标包括:脉搏、血压、呼吸、皮肤电、皮温、语音微抖动、脑电、心电、瞳孔、反应时、手指不随意运动和肌电、肾上腺素等[4]。但是直到20世纪70年代,才出现了使用语音来评估被测紧张程度的分析仪。1991年后,中国自行研制的第一台测谎仪——PG-I型心理测试仪问世。该测试仪使用了包括语音、皮电和呼吸等参数进行“测谎”。但是,以上的系统只是把声学参数作为测谎仪中一个因素考虑,并没有完全脱离传统的“测谎”模式。有代表性的完全利用语音声学参数进行测谎的系统有美国的VSA和以色列的LVA系统。VSA主要利用语音波形测量技术,依据人说谎时由于压力会引起肌肉紧张和微颤,而形成声波中的微颤调制和次波的产生[7]。LVA主要利用统计分析技术[8],依据人说谎时情绪参数的分布会和正常情况下的不一样,利用几百上千个参数进行统计分析来判断是否说谎。虽然一些非科学团体,例如一些地方政府、保险公司、执法机构、军方和大众媒体投入大量资金购买这些系统,但是科学研究表明这些产品的实用效果并不显著[7-8]。近年来,随着语音信号处理研究的飞速发展[9-11],语音测谎技术必然成为语音研究领域的一个热点。
据统计,目前世界上已有50多个国家在不同程度上使用测谎技术。中国自20世纪80年代初期引进测谎技术之后,该技术在公安机关侦破刑事案件、国安、军队保卫、民事仲裁及特殊部门人员招聘等领域进行了较为广泛的应用。尤其在刑侦方面,测谎技术可以有很多的辅助作用[12]:(1)配合侦查排查,较快突出重点嫌疑对象;(2)鉴别犯罪嫌疑人是不是作案者;(3)帮助侦查人员确定侦查和调查方向;(4)帮助侦查人员分析解决口供与证据、口供与口供之间的矛盾;(5)支援和验证其他鉴定工作;(6)可以拓宽提问范围、超越某些逻辑顺序、避免犯罪嫌疑人主观意志干扰,减少刑讯逼供。美国“9·11”事件之后,测谎技术的使用也拓展到反恐领域[13]。
(1)多道生理指标
最早的基于生理指标的测谎方法就是以脉搏、呼吸、血压和皮电活动等多种外周生理指标为依据的测谎方法,主要由测谎员依据欺骗时生理指标相对于诚实作答时生理指标的改变规律来推测被试者是否撒谎。心理及生理学研究表明,人类在说谎时,恐惧、愧疚等复杂的心理活动可能会引起外在生理指标的变化主要表现在呼吸、循环、皮肤、视觉、语言系统及其他器官的变化上[14]。上述变化产生了多种依据不同生理指标的测谎方法,但是该方法的关键在于撒谎与否所引起的生理指标变化是否具有普遍性和特异性尚无定论[15]。因为这些生理指标经常受到各种因素的影响,包括人的身体机能和心理状态、测谎对象的配合程度、测谎员的素质、测谎的时机和环境,甚至于任务刺激强度。由于多道测谎技术存在上述局限性,因此迫使人们寻求更为客观有效的手段来弥补不足之处。
(2)脑电波相关
多道生理指标易受多种因素影响,并且能被心理素质强的测试者控制,因此测试结果往往不准确。但是为了成功掩盖欺骗行为,说谎者需要计划自身反应,注意所处环境,从而控制自身行为和心理活动。这些活动在一定程度上受大脑的前额叶区域的管控[16],因此研究者开始借助于脑神经成像技术以及数字信号处理技术。由于脑认知神经技术能够直接观察撒谎行为发生时内部相关脑区的神经活动,与依靠外部生理活动变化的传统的测谎技术相比更加客观,更能揭示撒谎活动的内部规律,利用认知脑电技术进行测谎成为测谎技术未来的发展方向[17]。目前,基于脑成像技术的测谎研究大致可以分为4种:事件相关电位(Event-related potential,ERP)[18]、正电子发射断层成像(Positron emission tomography,PET)[19]、功能磁共振成像(Functional magnetic resonance imaging,fMRI)[20]和功能性近红外脑成像(Functional near infrared spectroscopy,FNIRS)[21]。
目前,这些认知测谎技术对测试环境、过程的要求都比较高,而且要求被测者对测试过程高度配合,加之设备较为庞大,因此很难在自然情境下对被测者进行测谎。此外,认知神经测谎技术设备都非常昂贵,因此可推广难度大,且缺乏客观的判定标准。
(3)眼动技术
眼动分析法是研究人类认知加工的有效方法,其无损伤、生态化和高效化的优势是一般研究技术难以取代的。心理学与生理学研究及实验成果明确指出眼动与说谎的关联参数[22],包括瞳孔直径的变化、眼动轨迹、眼动注视时间[23]和眼跳[24-25]等。但是,单一的眼动指标的测谎效果往往不理想,因此有学者研究将眼动测谎与其它测谎技术进行结合[26],从而提高测谎效率。
(4)其他指标
除了上述指标,微表情、脸部温度分布[27]、肢体动作以及文本识别[28-29]都有在测谎方面的应用。
由上可知,目前绝大多数的生理学测谎方法,都采用接触式的方式来采集被测者的各种生理指标,在需要被测者密切配合的同时,也给被测者带来在一定程度的心理负荷,导致采集到的数据受到影响。而基于语音的测谎技术隐蔽性高,信号采集方便,不会给被测者带来额外压力,因此信号分析比较客观。
语音中包含着说话人的很多信息,如说话者的身份、性别和年龄,甚至性格[30]。早期的研究显示语音中包含着说话者的情绪状态,隐含许多可靠的语音特征与特定情绪间的关系[31]。当人们紧张害怕时,基频和语速会上升,而当人们慌乱时,基频和语速会下降。因此,利用声学特征(基频,语音持续时间和共振峰频率等)可以获知大量的心理和情绪信息。
说谎是一种复杂的心理生理过程,人说谎时在说话的语速、语气等都会有所变化。此外,说谎时往往伴随着心理的唤起,情绪的改变和生理上的改变,因此在很大程度上决定了发声和共振的性质。例如害怕增加了喉部肌肉的紧张,并且能增加声门下方的空气压力,导致由声门产生的声音的改变,并由此改变声音的音色。此外,人的语音音调也是一种低频调制,其调制程度与精神紧张程度成反比。这种出现在7~15 Hz范围内的语音微抖动,正是当前语音分析式测谎器所要检测的指标。语音微抖动可产生语音的幅度调制和频率调制。因此,依赖于说谎时特殊的生理状态,通过对说谎者的语音分析,有可能根据语音特征的改变来判断说话人的状态。
专注于以语音特征为线索的测谎技术的研究起步地相对较晚[32],主要研究方向有3个:情感唤醒/压力[33]、认知负荷[34]和超控制[35]。2013年,Kirchhuebel采用语音的声学和时间特征,从这3个方面深入研究了不同的会谈方式对谎言检测的影响[31]。美国哥伦比亚大学课题组在进行测谎研究时,采用特征组合的方法,将声学特征、韵律特征和词法特征组合使用,以支持向量机(Support vector machine,SVM)为分类器,得到了64.4%的准确率,结合说话人的个性特征能得到更高的准确率[29]。苏州大学周燕在研究测谎时,以语音的稀疏表示作为深度置信网络(Deep belief network, DBN)的输入获取深度特征,用SVM来训练和识别,最终获得 69.83%的准确率[36]。上述研究工作虽然都是关注声学特征对语音测谎的影响,但是仍然存在两个问题:(1)大部分是心理学家从事的研究分析工作,而不是以技术可实现性出发的;(2)大量的研究工作并没有确定有效的谎言检测特征,很多研究工作的结论互相也是矛盾的。至今为止,并没有哪一个特征能单独有效地直接用来测谎。
2.1 声音及韵律特征
声音及韵律特征是语音分析的常用特征,在语音情绪分析与识别方面也有重要的应用。2009年,Enos在其博士论文中,总结了大约200种声音及韵律特征,包括持续时间、停顿、声调和音强特征[37]。特征基于多维时间尺度提取,从几秒到整个句子。(1)音调特征从每段语音的浊音区获得。此外,大量的二阶特征集包括:基音最大值,基音平均值,基音最小值,上升帧/下降帧/整帧/半帧/有声帧中的基音数,第一/最后一个斜率的长度,从下降到上升的变化数和第一/最后一个/平均斜率值。对这些特征有5种标准化方法:原始值、除以平均值、减去平均值、特征累计分布函数值以及减去平均值再除以标准误差;(2)两类基本能量特征被计算。每一段的原始能量和浊音的能量。此类特征也包括大量的二阶能量特征,如最小值、最大值和平均值等;(3)(音素)持续特征。音长的最大值和平均值。同样这两个特征也表现为三种形式中的一个:原始值,使用说话者的持续时间进行归一化,使用整个语音库的持续时长来进行归一化;(4)其他韵律特征。包括发言的最后一个音节的基音的斜率、发言的第一个音节的持续时间等。
在语音测谎方面,目前所用的特征都是上述特征的分支,区别在于特征统计量的求法和个数的不同。Ekman 等通过采访影视片段观后感的方式采集真谎话语料,通过对语料的基频特征进行统计分析,发现说谎语音段与说真话语音段相比较,基频有明显提升[38]。Hansen等用梅尔频率倒谱系数(Mel requency cepstrum coefficients, MFCC),以及MFCC的一阶差分、二阶差分、自相关和互相关构造出一组特征,以神经网络的方法为分类器对特定说话人的声音分11个压力等级进行研究。结果表明,与平和状态相比,以上特征在压力状态下的变化反应了声道发音器官的微抖动[39]。2003年,Depaulo等对现有测谎研究工作中提出的158种特征的元分析研究表明,其中有23种特征表现较为明显,包括16种语音及语言相关特征,如相较于说真话,人在说谎话时会出现说话时长变短、表述细节变少、重复变多和基频变高等现象[40]。美国普渡大学的研究小组利用幅度调制和频率调制模型进行测谎研究,结果显示Teager能量相关特征有区分真谎话的可能性[41]。
2.2 词汇特征
大量文献表明词汇的用法为谎言的检测提供了重要的线索[40]。早期研究通过手抄方式,从文本中提取了大约50个词汇特征[37]。词汇特征包括简单的词性和词的特点(如不同类型代词),缩略词,动词时态和特定的短语,如直接否认(如“我没有”)。此外,一些提示性短语(如事实上、基本上),可以用来标记话语结构,并当做是欺骗性语音的线索。
词汇特征包含表现积极和消极情绪的词汇[42]。其他特征包括发言是否是一个问句,面对主试的讯问时词汇的重复数量。许多功能可以描述为词或伪词,如存在误读或莫名其妙的词语,一段语句中的词数以及词数与段长的比值。最后的特征是标注面谈主题的标签。一些副语言特征包括笑声的数量、说话人噪声和可听见的呼吸声等都是在转录时手工标注的。
但是,词汇特征存在一些局限性:(1)从语法上,一些特征容易混淆,比如过去分词和被动语态,名词和动名词等;(2)虽然一些个人特征包含否定结构(hasNot, hasNo),但是并不意味着否定;(3)主题特征是语料库相关的,因此获得与面谈主题相关的相似特征是合理的;(4)这些特征通常无法在实际中有效提取,因此多是心理学家进行实验研究,实用化难度较大。
2.3 测试者相关特征
谎言和谎言检测还具有个性化因素,这增加了谎言检测的难度[43]。早期的作研究了5主体依赖性特征:谎言中填充停顿的数量和真话中填充停顿数量的比值;谎言中线索性短语和真话中线索短语的数量比;包含填充停顿或线索短语的语段数量与整体语段数量的比值以及性别因素[37]。这些特征的计算方法如下(以谎言中填充停顿的数量和真话中填充停顿数量的比值为例):首先计算每个被试者的比值,然后汇总所有被试者数据,并根据被试者给出的得分和汇总数据设置被试者的值为4分位数,即被试者的特征值是0~3的整数。
需要注意的是:(1)使用4分位数而不是原始比例数据的原因在于,每个被试者的原始比例数据独一无二,可以识别单个被试者,但可能会带入不公平的优势到学习算法中;(2)由于这些特征需要进行标定,所以可能不利于学习模型学习没有训练数据的对象,除非可以使用其他方法获得被试者的4分位数据。
3.1 CSC数据库
影响谎言语音自动检测的主要障碍是缺少用于训练和测试的高质量的谎言和非谎言语音的数据。CSC数据库[44]是由语音学家设计并用于研究语音谎言检测的专业数据库。语料库包含男女各16名被试者(母语为英语)参与研究,均来自哥伦比亚大学。被试者被告知参加“交流实验”,并且欺骗其说是为了寻找符合25个“美国顶级企业家”要求的人才。首先,设计者在音乐、互动、生存技能、食品和葡萄酒知识及纽约地理和公民6个方面对被试者进行提问和任务测试,将被试者得到的分数与最突出的企业家相比以判断他们是否具有优秀人才的特质。实际中,任务的难点在于使被试者相信他们在某两个方面符合该特质,某两个方面得分过高,其余两个方面得分过低。为此,每个主题方面都存在一组“简单”和“困难”的问题。然后,被试者被告知得分,然后告诉他们不符合目标特质。但是也告诉他们可以说服面试官他们是符合要求的。任何成功欺骗受访者,使其相信他们符合目标特质的被试者都可以获得100美元,并能参与进一步的研究工作。此外,受试者被告知,研究表明能说服有特定能力的人通常享有许多社会福利。这个提议被受试者所接受,并且为受试者提供了动力。
通过初始测试并得到分数后,所有被试者在双层隔音棚中与主试进行面谈,并试图通过欺骗让主试相信其在6个领域的能力都是符合优秀人才的特质。由于上述的设计,被试者会在其中两个领域说实话,而在其他领域说谎。面试官的任务是确定被试者是如何思考的,其被允许问被试者任何问题,即使不同于他们实际所需执行的任务。每次交谈持续25~50 min,一共包含大约15.2 h的对话;最终生成大约7 h的语音样本。
3.2 IDIAP Wolf 数据集
Idiap Wolf数据集是瑞士IDIAP研究机构采集的音视频数据集的一部分,也是第一个在多说话人场景下录制的谎言数据库[45]。数据采集背景为狼人游戏,数据库的创新性在于不仅允许调查欺骗性/非欺骗行为,也包括引起怀疑的行为动作,包括语音。担当狼人角色的玩家将被归类为说谎者,而担当村民角色的玩家将被归类为诚实者。实验人员分为四组,每组平均19人,其中两人始终扮演狼人。实验进行了15次,所有高品质的音频数据通过头戴麦克风采集。除了实验数据外,玩家在非实验状态下的数据也被记录为基准数据。
3.3 DyVis数据库
DyViS数据库(语音的动态变化)来源于英国的一个资助项目,研究认为剑桥大学的弗朗西斯诺兰及其团队在剑桥大学[46]。该项目旨在从两个角度探索语音的动态变化:(1)评估语音信号中的动态特征的有效性,比如表征说话人的声音或共振峰的转换特征;(2)关注更广泛的声音或语言的变化,以及如何根据这些变化中体现出的本质来区别说话人。重点关注的是体现变化的语音变量。
事实上,尽管该数据库并不是为研究谎言语音而设计,但是它确实有用于各种研究目的的潜质。数据库包含100个标准英语男性的高质量对话录音,对话具有不同的背景,条件和风格。对于研究谎言语音特别有价值的是模拟的警察采访,参与者会被询问有关其参与的贩毒事件的问题。采访采用信息收集的风格,并为部分需要掩盖某些事实的应聘者构建了“认知负荷”的场景。采访完全复制现实生活,可以保证参与者能充分参与。但是,设计复杂化了其在谎言语音研究方面的应用。参与者被要求装作参与了犯罪。可以说,表演本身都是骗人的。除了扮演他们的角色,参与者被要求在警察采访时也撒谎。所以,在某种程度上,他们是双重欺骗的。
3.4 Smell of Fear数据库
Smell of Fear数据库旨在研究生物、生理、心理和行为因素与隐瞒知识行为间的关系[47]。研究在可控的实验室中进行,包含多个访谈环节。参与者被要求隐瞒拥有的物体,并金钱奖励作为回报。访谈遵循一个可扩展的审讯协议进行,包含20个“是/否”的问题。为了采集每个参与者的控制数据,参与者首先需完成一个关于家庭和爱好相关的基本访谈。随后,为了提高参与者的觉醒水平,接着的两个会谈采用结构化方式。第一次会谈的问题集中在社会的可取性和可信性方面,而第二次采访会谈则直接询问有关拥有的物体的问题。为了在问题表述上实现一致性,实验者预先录制问题,并通过录音机播放。在3次会谈中,38名母语为英语的男性的音频和视频数据被记录下来。
在研究语音相关因素方面,语料库的设计存在一些不足。首先,隐瞒物体被视为一个受试者间的变量。参与人数的一半(撒谎者)拥有物体,因此不得不欺骗面试官,而另一半(诚实者)没有该物体,因此没有欺骗的必要。由于语音和嗓音具有说话人相关性,因此这两类人不能相互比较。其次,参与者没有戴耳机麦克风和基本录音设备(即标准磁带录音机)进行录音,因此样本质量存在缺陷。
4.1 常用机器学习算法
同大部分分类问题一样,谎言检测也是采用机器学习算法进行分类。目前的模式识别算法有很多种,从研究比较广泛的SVM到最新的深度学习网络算法,都有相关的学者进行研究。但是,目前那种分类算法效果最好,尚没有定论,还有很多研究工作需要开展。
在算法比较分析方面,Enos博士做了大量的工作[37],基于4类特征集比较了5种机器学习方法。5种机器学习方法为:朴素贝叶斯、Ripper[48]、c4.5、逻辑回归和SVM算法。4种特征集为:(1)基本特征集(文本特征,声学和韵律特征,归一化处理);(2)基本特征集加测试者相关特征集(包含基本特征集和说话人相关的特征);(3)所有特征集;(4)Best 39特征集(基本特征集加测试者相关特征集经过卡方排列选出的39个特征)[37]。每一种特征集在所有学习算法中进行训练,并对每种特征集都使用十折交叉验证法来检验算法准确度。测试结果如表1所示。
表1 不同特征集的识别精度测试结果(括号内为均值的标准误差)
表1给出了一些比较结果:(1)在基本特征集上,c4.5具有最好的性能,因为c4.5能很容易捕获到特征之间的复杂关系和相关性,但是与SVM和逻辑回归分类器并没有显著性的差异。(2)在基本特征集加测试者相关特征集上,c4.5同样具有最好的性能,这归因于决策树学习器和归一化特征的作用。在该特征集上学习的决策树充分利用了叶子节点中的能量和基因变化特征,以及词汇特征,尤其是积极和消极的情感词汇、过去式和第三人称。中层规则使用了词汇特征和副语言特征(笑声和错误发音)。高层节点中出现的测试者相关特征可通过与欺骗行为相关的策略来帮助区分说话人。(3)在所有特征集上,同上一特征集的效果几乎相同,可能是因为特征集已经冗余;而c4.5依然是这个特征集下表现最好的学习器。(4)在Best 39特征集上,c4.5学习器表现最好,分类准确率达到了70.00%。但是,其与Ripper学习器并没有显著的差异。决策树的学习表明:词汇特征(again,yes,no和一些积极与消极的情感特征单词)体现在叶子节点上,主题特征以及各种词汇特征出现在中间层,与测试对象相关的特征则出现在顶层。
表2 CSC数据下两种特征集的检测精度对比
此外,在相同的CSC数据库上,哥伦比亚的研究团队做了进一步的研究工作[49]。测试特征包括韵律、词汇、句法和音位特征;测试算法包括SMO, Bagging, Dagging, BayesNet,NaiveBayes和Majority voting算法。测试结果如表2所示。表2中的基本特征集为openSMILE[50]的6 373种静态特征,包括基频、强度、谱、倒谱、时间、语音质量和锐度等。顶级特征集经过Weka属性评估[51]后,信息增益大于零的172维特征,主要包括音位特征,大部分来自open SMILE的听觉谱特征,部分语言查询与字数统计和情感语言特征[52],基频变化特征[53]以及一些附加的词汇特征[37]。从实验结果看,NaiveBayes算法能达到64.7的识别率。
此外,苏州大学的赵鹤鸣教授的团队也在从事谎言检测工作,并提出了引入非线性动力学特征来研究谎言检测问题[54-55]。最近的研究成果表明,该团队提取了30位韵律特征加18维非线性动力学特征,并基于相关向量机进行了实验测试[55]。实验结果显示,该方法可以达到70.7%的识别率,接近于基于脑电数据的75.4%的识别率。但是该课题并不是基于开源的数据库进行测试,因此后继还要进行进一步的实验验证。
4.2 深度学习网络算法
近年来,深度学习在图像与语音领域的巨大成功引起学界与工业界的广泛关注[56]。一些学者已开始将卷积神经网络(Convolutional neural network, CNN)与循环神经网络(Recurrent neural network, RNN)应用于语音信号处理方面[57-58],并取得一定的成果。传统的CNN由于其网络级联结构,在提取高层次特征时,会舍弃来自底层卷积层的低层次特征,深度网络[59-61]通过连接各个卷积层的输出解决了这一问题,并在人脸识别领域达到99.15%的识别率,超过了人类试验者。
在语音测谎研究方面,基于深度学习网络的研究刚刚起步。中国国内,有学者采用受限玻尔兹曼机进行测谎研究工作,在自行录制的数据库上,识别率可以达到60%以上[36]。此外,本课题组也在从事基于深度学习的语音测谎方面研究。研究团队与公安大学合作,一方面从事汉语谎言数据库的录制工作,一方面基于CSC数据库进行谎言语音检测算法研究。目前,借鉴深度学习网络的相关研究工作[60],课题组提出一种基于CNN的语音测谎算法[62]。该网络共分为6层,具体描述如下:
(1)网络前三层为卷积层,使用尺寸不同的卷积滤波器,滤波器参数在该层共享,每层卷积层均后接池化层,进行维度为2的特征图降维。第1层卷积层的卷积滤波器尺寸为3×2,第2层为2×3,第3层为2×2。对输入进行卷积操作,从而得到各个卷积层独有的特征,即有
(1)
式中:Fl为所述该层的特征图;l表示层数;Kl表示第l层卷积层的卷积核;Il表示该层的输入;i,j为第l层特征图中的特征点位置;m,n表示第l层卷积核的尺寸。
(2)网络第4层为聚合层,通过将前3层卷积层的特征图展平得到
(2)
(3)
(3)网络第5层与第6层均为全连层,每层均由2 048个线性修正单元组成。
提取出的语音样本的梅尔倒谱系数图像特征输入卷积神经网络后,会得到第六层的2 048维输出向量,通过计算该向量的后验贝叶斯概率分布,即
(4)
式中:x(i)为第i个待识别样本通过网络第6层得到的2 048维输出向量;θ1和θ2为置信度评测参数,均为2 048维的向量;选择分布中最大的概率,则该概率所属类别即为网络对待识别样本的评测结果。在CSC数据库上的测试结果显示,该模型对谎言的识别率达到70%左右。
尽管基于语音的测谎技术已经有了一些有效的尝试和探索,但还有很多问题亟待解决。由于说谎原因的多样性,每个人说谎有不同的特征表现,不同人对说谎时情绪的控制和掩盖能力不同,加大了测谎的难度。语音测谎的难点主要包括:
(1)测谎语料库的不完善。说谎语料的特殊性导致了说谎语料采集的难度较高,现今学者们开展的语音测谎研究多在自己录制的小语料库中进行,大多基于情景模拟,或是从影视资料中截取的音频文件,很少能采集到实际情况下的谎言语料,没有一个数据量较大的、标准的、可靠的和通用的测谎语料库。且现有测谎语料库绝大多数都是英文的,尚没有汉语的测谎语料库。因此为了更好地推进语音测谎的研究,测谎语料库的构建是首要任务。
(2)特征表达问题。学者们经过对多种语音特征的研究,对于某一语音特征对测谎的贡献尚未达到统一认可的结论,即单一语音特征对测谎的效果只在特定实验环境中成立,其他不一定适用。此外,言语特征和文法特征也是未来测谎的研究方向之一,比如上下文等[63]。因此,许多学者致力于发现多种语音特征的组合对测谎的贡献。
(3)语音测谎的普适性。状况依存性是语音信息的一个重要特点,各国的语言和民族习惯不同,语言表达的方式不同。此外,在研究情感和情感状态时,个体差异将是研究的一个先决条件,而这种差异存在于欺骗的行为中。某些人格特质和智力都可能左右一个人在谎言下的表现出来的特征[64]。因此,研究不具有个体差异的特征或排除个体差异的影响对于语音测谎技术有重要意义。
(4)如何有效防止反测谎的问题。说谎受心理因素的影响非常大。人说谎时为避免被识别,会控制表述方式,尽量使自己表现得和说真话时一样。心理素质好的人变化较小,特征变化不明显。因此,如何有效地防止反测谎问题对于提高测谎的识别率至关重要。
(5)研究工作应该理论与实践并重。建立令人信服的指标与说谎行为间的理论假设,而不是简单地找出测试指标的变化与是否撒谎之间的简单联系。符合这一理论假设的测试指标必须应该满足精确性、特异性和推广性的原则。关于谎言的心理学和哲学理论研究对测谎技术发展有重要的指导工作[65]。同时,对谎言检测的研究应该涉及日常生活的各个领域,比如人际关系、商业和政治等[66]。而且,未来研究应该超越测谎技术,应该更加关注于对“可疑”的检测。部分研究学者已经在从事相关工作的研究[67-68]。未来,该项研究可用于边境控制和安全监控等日常检测方面。
(6)相关的配套工作需要完善,主要包括高素质测谎人员的培养、性能良好的测谎仪器设备的研制、对测谎技术的作用的正确认识以及测谎技术相关法律规范操作规范的制定等。有研究显示,提问的方式和内容也是影响谎言检测的重要因素之一[65],甚至不同环境下的真话研究对于分析被测状态也是有价值的[69]。
总之,利用语音的声学特征来进行说话人说话内容的置信度评估,可以实现运程监控,并且不易引起说话人的心理防御,和传统的从心理生理学角度的研究相比,更具有现实意义和实际意义。其研究成果在计算机科学、脑科学、心理学、信息科学、教育学、医学、认知科学和通信等领域具有广泛的应用价值。同时测谎技术的发展还具有广阔的应用前景,因此必将逐渐成为中国军事、公安、司法、人事及商业服务行业必备的技术检测手段。
[1] Fan Cheng, Zhao Heming, Chen Xueqin, et al. Distinguishing deception from non-deception in Chinese speech[C]//2015 Sixth International Conference on Intelligent Control and Information Processing (ICICIP). Wuhan: IEEE, 2016: 268-273.
[2] Hartwig M, Bond C F. Why do lie-catchers fail? A lens model meta-analysis of human lie judgments[J]. Psychological Bulletin, 2011, 137(4): 643-659.
[3] Bond C F,Depaulo B M. Accuracy of deception judgments[J]. Personality and Social Psychology Review, 2006,10(3): 214-234.
[4] 孟鲁宁,曾泽民. 多参量心理测试测谎技术及其应用[J]. 人民检察, 2000(7): 56-58.
Meng Luning, Zeng Zemin. Multi-parameter psychological testing polygraph technology and application[J]. People's Procuratorial Semimonthly, 2000(7):56-58.
[5] Elaad E,Ben-Shakhar G. Finger pulse waveform length in the detection of concealed information[J]. International Journal of Psychophysiology, 2006,61(2): 226-234.
[6] Gamer M, Rill H G, Vossel G, et al. Psychophysiological and vocal measures in the detection of guilty knowledge[J]. International Journal of Psychophysiology, 2006,60(1): 76-87.
[7] Harnsberger J D, Hollien H, Martin C A, et al. Stress and deception in speech: Evaluating layered voice analysis[J]. Journal of Forensic Sciences, 2009,54(3): 642-650.
[8] Eriksson A,Lacerda F. Charlatanry in forensic speech science: A problem to be taken seriously[J]. International Journal of Speech, Language and the Law, 2007,14(2): 169-193.
[9] Mcloughlin I, Zhang Haomin, Xie Zhipeng, et al. Robust sound event classification using deep neural networks[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2015, 23(3): 540-552.
[10] Qian Yanmin, Bi Mengxiao, Tan Tian, et al. Very deep convolutional neural networks for noise robust speech recognition[J]. IEEE/ACM Transactions on Audio Speech and Language Processing, 2016, 24(12): 2263-2276.
[11] 邹采荣, 梁瑞宇,谢跃. 数字助听器语音处理算法研究进展与展望[J]. 数据采集与处理, 2016,31(2): 242-251.
Zou Cairong, Liang Ruiyu, Xie Yue. Research progress and outlook of speech processing algorithms for digital hearing aids[J]. Journal of Data Acquisition and Processing, 2016,31(2): 242-251.
[12] Jessen M. Forensic phonetics[J]. Language and Linguistics Compass, 2008,2(4): 671-711.
[13] 杨当,刘洪广. 多道仪和认知脑电技术的反测谎研究综述[J]. 铁道警察学院学报, 2016(1): 11-16.
Yang Dang, Liu Hongguang. Review on counter-lie-detection with multichannel analyzer and cognitive brain potentials[J].Journal of Railway Police College,2016(1): 11-16.
[14] Nieuwenhuis S, De Geus E J,Aston-Jones G. The anatomical and functional relationship between the P3 and autonomic components of the orienting response[J]. Psychophysiology, 2011,48(2): 162-175.
[15] 勾蕾,王小平. 测谎技术及其应用新进展[J]. 国际精神病学杂志, 2012(4): 240-243.
Gou Lei, Wang Xiaoping. Latest development on lie detection and application[J]. Journal of International Psychiatry,2012(4): 240-243.
[16] Spence S A. The deceptive brain[J]. Journal of the Royal Society of Medicine, 2004, 97(1): 6-9.
[17] 关楠思, 刘技辉, 张馨元, 等. 事件相关电位的研究进展及其法医学应用价值[J]. 法医学杂志, 2015,31(2): 135-139.
Guan Nansi, Liu Jihui, Zhang Xinyuan, et al. Advances in event-related potential and its forensic application value[J]. Journal of Forensic Medicine, 2015, 31(2):135-139.
[18] Miao J, Wang S, Wan Z, et al. Motion characteristics of the vertebral segments with lumbar degenerative spondylolisthesis in elderly patients[J]. European Spine Journal, 2013,22(2): 425-431.
[19] Abe N, Suzuki M, Tsukiura T, et al. Dissociable roles of prefrontal and anterior cingulate cortices in deception[J]. Cerebral Cortex, 2006,16(2): 192-199.
[20] Ganis G, Rosenfeld J P, Meixner J, et al. Lying in the scanner: Covert countermeasures disrupt deception detection by functional magnetic resonance imaging[J]. Neuroimage, 2011,55(1): 312-319.
[21] Bunce S C, Devaraj A, Izzetoglu M, et al. Detecting deception in the brain: A functional near-infrared spectroscopy study of neural correlates of intentional deception[C]∥Nondestructive Evaulation for Health Monitoring and Diagnostics.[S.l.]:International Society for Optics and Photonics, 2005, 5769:24-32.
[22] Leal S,Vrij A. Blinking during and after lying[J]. Journal of Nonverbal Behavior, 2008,32(4): 187-194.
[23] Peth J, Kim J S,Gamer M. Fixations and eye-blinks allow for detecting concealed crime related memories[J]. International Journal of Psychophysiology, 2013,88(1): 96-103.
[24] Ehrlichman H,Micic D. Why do people move their eyes when they think[J].Current Directions in Psychological Science, 2012,21(2): 96-100.
[25] Vrij A, Oliveira J, Hammond A, et al. Saccadic eye movement rate as a cue to deceit[J]. Journal of Applied Research in Memory and Cognition, 2015,4(1): 15-19.
[26] Kassin S M. Paradigm shift in the study of human lie-detection: Bridging the gap between science and practice[J]. Journal of Applied Research in Memory and Cognition, 2012,1(2): 118-119.
[27] Pavlidis I,Levine J. Thermal image analysis for polygraph testing[J]. IEEE Engineering in Medicine and Biology Magazine, 2002,21(6): 56-64.
[28] Graciarena M, Shriberg E, Stolcke A, et al. Combining prosodic lexical and cepstral systems for deceptive speech detection[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP ).[S.l.]:IEEE,2006:1.
[29] Enos F, Shriberg E, Graciarena M, et al. Detecting deception using critical segments[C]//Interspeech 2007. Antwerp: ISCA-INST Speech Communication Assoc, 2007: 2432-2435.
[30] 胡超,傅根跃. 听音识人——语音频谱与人格特质的关系初探[J]. 心理科学进展, 2011,19(6): 809-813.
Hu Chao, Fu Genyue. Perceive one′s character through his voice: The relationship between speech spectrum and personality traits[J]. Advances in Psychological Science, 2011,19(6):809-813.
[31] Kirchhuebel C. The acoustic and temporal characteristics of deceptive speech[D].York England:University of York,2015.
[32] Yap T F, Epps J, Ambikairajah E, et al. Formant frequencies under cognitive load: Effects and classification[J]. EURASIP Journal on Advances in Signal Processing, 2011(1): 1-11.
[33] Kirchhubel C, Howard D M,Stedmon A W. Acoustic correlates of speech when under stress: Research, methods and future directions[J]. Int Journal of Speech, Language and the Law, 2011,18(1): 75-98.
[34] Khawaja M A, Chen F, Marcus N. Measuring cognitive load using linguistic features: Implications for usability evaluation and adaptive interaction design[J]. International Journal of Human-Computer Interaction, 2014, 30(5): 343-368.
[35] Smiljanic R,Bradlow A R. Speaking and hearing clearly: Talker and listener factors in speaking style changes[J]. Language and Linguistics Compass, 2009,3(1): 236-264.
[36] Zhou Y, Zhao H,Pan X. Lie detection from speech analysis based on K-SVD deep belief network model[C]∥International Conference on Intelligent Computing.Fuzhou, China: Springer,2015:189-196.
[37] Enos F. Detecting deception in speech[D]. New York: the Graduate School of Arts and Sciences, Columbia University, 2009.
[38] Ekman P, O'sullivan M, Friesen W V, et al. Invited article: Face, voice, and body in detecting deceit[J]. Journal of nonverbal behavior, 1991,15(2): 125-135.
[39] Hansen J H,Womack B D. Feature analysis and neural network-based classification of speech under stress[J]. IEEE Transactions on Speech and Audio Processing, 1996,4(4): 307-313.
[40] Depaulo B M, Lindsay J J, Malone B E, et al. Cues to deception[J]. Psychological Bulletin, 2003,129(1): 74-118.
[41] Gopalan K, Wenndt S. Speech analysis using modulation-based features for detecting deception[C]//Proceedings of the 2007 15th International Conference on Digital Signal Processing. Cardiff: IEEE, 2007:619-622.
[42] Madsen R E, Larsen J, Hansen L K. Part-of-speech enhanced context recognition[C]//14th IEEE International Workshop on Machine Learning for Signal Processing. Sao Luis: IEEE, 2004 :635-643.
[43] Levitan S I, Levine M, Hirschberg J, et al. Individual differences in deception and deception detection[C]//The Seventh International Conference on Advanced Cognitive Technologies and Applications. Nice:IARIA XPS Press, 2015:52-56.
[44] Enos F, Benus S, Cautin R L, et al. Personality factors in human deception detection: Comparing human to machine performance[C]//Interspeech. Pittsburgh: ISCA-INST Speech Communication Assoc, 2006:813-816.
[45] Hung H,Chittaranjan G. The idiap wolf corpus: Exploring group behaviour in a competitive role-playing game[C]∥Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM, 2010,879-882.
[46] Nolan F, Mcdougall K, De Jong G, et al. The DyViS database: Style-controlled recordings of 100 homogeneous speakers for forensic phonetic research[J]. International Journal of Speech, Language and the Law, 2009, 16(1): 31-57.
[47] Eachus P, Stedmon A,Baillie L. Hostile intent in public crowded spaces: A field study[J]. Applied Ergonomics, 2013, 44(5): 703-709.
[48] Cohen W W. Fast effective rule induction[C]∥Proc of the 12th International Conference on Machine Learning. Tahoe City, CA: Morgan Kaufmann,2000,46:115-123.
[49] Levitan S I, An G, Ma M, et al. Combining acoustic-prosodic, lexical, and phonotactic features for automatic deception detection[C]//Interspeech. San Francisco: Iscainst Speech Communication Assoc, 2016:2006-2010.
[50] Schuller B, Steidl S, Batliner A, et al. The interspeech 2016 computational paralinguistics challenge: Deception, sincerity & native language[C]//Interspeech. San Francisco:ISCA-INST Speech Communication Assoc, 2016:2001-2005.
[51] Lee C,Lee G G. Information gain and divergence-based feature selection for machine learning-based text categorization[J]. Information Processing & Management, 2006,42(1): 155-165.
[52] Whissell C, Fournier M, Pelland R, et al. A dictionary of affect in language: IV. Reliability, validity, and applications[J]. Perceptual and Motor Skills, 1986,62(3): 875-888.
[53] Cui X, Kingsbury B, Cui J, et al. Improving deep neural network acoustic modeling for audio corpus indexing under the IARPA babel program[C]//Interspeech. Singapore:ISCA-INST Speech Commication Assoc, 2014:2103-2107.
[54] Pan X, Zhao H, Zhou Y, et al. A preliminary study on the feature distribution of deceptive speech signals[J]. Journal of Fiber Bioengineering and Informatics, 2015,8(1): 179-193.
[55] Zhou Y, Zhao H, Pan X, et al. Deception detecting from speech signal using relevance vector machine and non-linear dynamics features[J]. Neurocomputing, 2015,151: 1042-1052.
[56] 戴礼荣,张仕良. 深度语音信号与信息处理:研究进展与展望[J]. 数据采集与处理, 2014,29(2): 171-179.
Dai Lirong, Zhang Shiliang. Deep speech signal and information processing:Research progress and prospect[J]. Journal of Data Acquisition and Processing, 2014, 29(2): 171-179.
[57] Mcloughlin I, Zhang H, Xie Z, et al. Robust sound event classification using deep neural networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015,23(3): 540-552.
[58] Qian Y M, Bi M X, Tan T, et al. Very deep convolutional neural networks for noise robust speech recognition[J]. IEEE-Acm Transactions on Audio Speech and Language Processing, 2016,24(12): 2263-2276.
[59] Sun Yi, Wang Xiaogang, Tang Xiaoou. Deep learning face representation from predicting 10,000 Classes[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014:1891-1898.
[60] Ouyang W L, Wang X G, Zeng X Y, et al. DeepID-net: Deformable deep convolutional neural networks for object detection[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015:2403-2412.
[61] Chen X, Liu X Y, Wang Y Q, et al. Efficient training and evaluation of recurrent neural network language models for automatic speech recognition[J]. IEEE-ACM Transactions on Audio Speech and Language Processing, 2016,24(11): 2146-2157.
[62] 梁瑞宁,谢跃,赵力,等.一种基于卷积神经网络的言语置信度评测方法[P]:中国,201710099098.4,2017/2/23.
Liang Ruiyu, Xie Yue, Zhao Li, et al. An evaluation method of speech confidence beased on convolutional neural network[P]. P.R.China, 201710099098.4, 2017/2/23.
[63] Evans J R, Houston K A,Meissner C A. A positive, collaborative, and theoretically-based approach to improving deception detection[J]. Journal of Applied Research in Memory and Cognition, 2012,1(2): 122-123.
[64] Gutheil T G. Detecting lies and deceit: Pitfalls and opportunities[J]. Journal of the American Academy of Psychiatry & the Law, 2010,38(1): 141-142.
[65] Vrij A,Granhag P A. Eliciting cues to deception and truth: What matters are the questions asked[J]. Journal of Applied Research in Memory and Cognition, 2012,1(2): 110-117.
[66] Depaulo B M,Bond C F. Beyond accuracy: Bigger, broader ways to think about deceit[J]. Journal of Applied Research in Memory and Cognition, 2012,1(2): 120-121.
[67] Warmelink L, Vrij A, Mann S, et al. The effect of question expectedness and experience on lying about intentions[J]. Acta Psychologica, 2012,141(2): 178-183.
[68] Lancaster G L, Vrij A, Hope L, et al. Sorting the liars from the truth tellers: The benefits of asking unanticipated questions on lie detection[J]. Applied Cognitive Psychology, 2013,27(1): 107-114.
[69] Danielewicz-Betz A. Face saving discursive strategies of negation: A Saudi-Japanese comparison[J]. Lodz Papers in Pragmatics, 2016,12(1): 23-51.
Progress and Outlook of Lie Detection Technique in Speech
Zhao Li1, Liang Ruiyu1,2, Xie Yue1, Zhuang Dongzhe3
(1.School of Information Science and Engineering, Southeast University, Nanjing, 210096, China; 2.School of Communication Engineering, Institute of Nanjing Technology, Nanjing, 211167, China; 3.School of Investigation, Chinese People's Public Security University, Beijing, 100038, China)
The early polygraph technology is easily affected by personal factors and external environment, especially the anti-polygraph technology. Although lie detection technology based on electroencephalogram can directly observe neural activity of the relevant brain regions to reveal the internal rules when lies occur, the required professional equipment is too large and expensive to use handle. Compared with the above technologies, lie detection technology in speech has spatio-temporal span and high concealment, etc. The development situation of current polygraph technology and basic principle are described, the types and characteristics of non-speech and speech related indicators are introduced and analyzed. Then, several public speech databases for lie detection are introduced, and the research progress of lie detection algorithm is highlighted. Finally, the future direction of lie detection technology in speech is summarized from five parts, i.e., the Chinese corpus, speech feature extraction, anti-polygraph technology, theoretical research and related auxiliary work.
lie; polygraph; speech signal processing; feature extraction
国家自然科学基金(61673108,61375028,61571106)资助项目;江苏省“青蓝工程”资助项目;中国博士后科学基金(2016M601696)资助项目;江苏省“六大人才高峰”项目(2016-DZXX-23)资助项目;江苏省博士后科研资助计划(1601011B)资助项目;江苏省自然科学基金(BK20161517)资助项目。
2014-05-09;
2016-10-14
TP912.3
A
赵力(1958-),男,教授,研究方向:语音信号处理,E-mail: zhaoli@seu.edu.cn。
梁瑞宇(1978-),男,博士研究生,研究方向:语音信号处理。
谢跃(1991-),男,博士研究生,研究方向:语音信号处理。
庄东哲(1972-),男,副教授,研究方向:测谎技术。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!