当前位置:首页 期刊杂志

声音定位仿生机器人针对持续声源心理声学修正的实验研究*

时间:2024-05-04

徐 伟 侍中楼

(江汉大学工程训练中心 武汉 430056)

1 引言

机器人研究领域一直关注如何在未知环境中利用传感器反馈信息对目标进行检测、识别与定位,也是移动机器人适应周边环境、实现自身设计功能的重要体现。近些年,广泛应用于移动机器人的视觉感知目标识别技术取得了大量的研究成果[1]。通过机器人视觉技术,可以对既定目标进行直接观测,可以测量到较广的范围,可以获得较全面的目标信息,目标图像分辨率较高。但机器人视觉感知技术也具有一定的局限性,如光强度变化会引起结果数据诸如颜色色值、对比度的变化等等,尤其当周边环境能见度较低时,视觉感知往往会失效。而在实际应用中,声音信号则具有视觉信号所不具备的特点[2]和优势,如声音信号不具备特定方向性,声音信号的时间分辨率高,特别是能见度较低时声音信号可以不受限制等。所以机器人声音听觉感知技术的研究,可以有效改善视觉、声纳等传感器在特定环境下应用的局限性。

2 听觉生理学基础

人类通过听觉系统接收并处理声音信息,听觉系统包含外周和中枢两部分。听觉外周接收器官是耳,外周听觉系统通过听觉纤维与中枢听觉系统相连,对声音进行由机械能向生物电能的转换,以生物电能的形式传递到神经系统中[3]。声音经过外耳道进入听觉系统后被逐级感知,最终到达最顶层的听觉大脑皮层。大脑皮层接收到声音信号的输入后,经过一系列处理,使生物个体可以感知声音,包括声音传递中所包含的信息[4]。听觉外周对声音信息的传递和处理极为重要的,是生物听觉系统处理声音信息的基础,并且实现声音信息由机械能向生物电能的能量转换,哺乳类动物(包括人类)具有一对对称的听觉外周接收器官,可以扩大生物体听觉的空间范围、实现声源的定位等功能[5]。

在本实验研究中,利用声音传感器接收声波,然后通过电子器件和程序软件将声音信号进行处理,从而实现仿人机器人对声源进行定位、跟踪的基本功能。

3 声音定位

声音定位(sound localization)是听觉系统根据听觉线索确定声源物理位置的能力。机器人的听觉感知技术的研究,与它的视觉感知技术研究相比,目前处于相对较弱的阶段。先前机器人导航主要使用测距传感器(如声纳),而跟踪主要依靠视觉[6]。但是像生物个体那样,视觉被限制在小于180°的范围内,而听觉能带来360°的全方位感知。由于声音的衍射、反射等特性,它能定位不在视觉范围内的声音目标,特别是能见度较低时。在多信息采集的位置环境系统中,将听觉感知技术与视觉感知技术两者相互结合,可以很大程度上弥补机器人的视觉局限性。近年来,机器人听觉感知的研究已经成为机器人研究领域的重要分支。实现听觉功能是机器人智能化程度的重要标志之一,也是实现人机对话、环境交互等功能的重要技术手段[7]。因此,研究机器人听觉定位跟踪声源目标具有重要的理论意义和实际价值[8]。

为了使仿人机器人在生理习惯上更接近于人类听觉习惯,在本实验研究中将以心理声学理论模型为基础,使仿人机器人具备对人类心理声学的部分特性。

4 心理声学基础

某些人类听觉系统的性质不能严格按照生理学或解剖学进行解释,而从人类对声音的感觉或心理声学(psychacoustic)角度却能很好地理解这些性质[9]。

心理声学,是使用噪声能量平均的方法来评价噪声对人的影响,这就是时间平均声级或等效连续声级,用Leq表示,通用的有A、B、C和D四个计权声级。A计权声级能够较好地反映人耳对噪声的强度与频率的主观感觉,对一个连续的稳态噪声,它是一种较好的评价方法,故亦称等效连续A声级L(A)eq[10]。等效连续A声级定义为在声场中某一定位置上,用某一段时间能量平均的方法,将间歇出现的变化的声音以一个声级来表示该段时间内的噪声大小,称这个声级为此时间段的等效连续声级,即:

其中,PA(t)是瞬时A计权声压;P0是参考声压(2×10-5Pa);LA是变化A声级的瞬时值,单位分贝(dB);T是测量时间段的值[11]。

在上面公式中,声音感知强度(perceived intensity)是声音信号持续时间的函数,通过A计权声级值所反映出来的。在现实生活中,轻按一下汽车喇叭不会显得那么响亮,但持续十几秒钟所造成的效果却让声音非常刺耳。定量的说,如果某段声音持续时间增加十倍,比如从50ms增加到500模式,等效为在强度上增加了10dB。

如果数据符合正态分布,其累积分布在正太概率纸上为一直线,则可用下面近似公式计算:

L10、L50、L90为累积百分声级,其定义如下。

L10为测量时间内,10%的时间超过的噪声级,相当于噪声的平均峰值;

L50为测量时间内,50%的时间超过的噪声级,相当于噪声的平均值;

L90为测量时间内,50%的时间超过的噪声级,相当于噪声的背景值[12]。

在本实验系统中,将以式(2)作为程序设计的理论基础公式。

5 系统设计

5.1 系统结构原理

本系统通过分布在机器人头部的左、中、右方向上的3个采用以NE5532为核心的LY-901拾音器来对外界产生的声音信号进行采集(如图1),单片机根据不同信号的来源对声音信号进行分析,该仿生机器人模仿人类并不会对任何声音造成的反馈都去转动颈部脖子去定位声源,仅仅通过分析确定声音信号的来源方向,控制机器人眼睛LED对声音来源造成一定的反应;只有通过被动红外传感器对某个特定的物体(比如一个人体)所造成的声音信号才会有特定的反应(转动颈部),形成对声音信号的定位。

图1 机器人头部的拾音器装置

本系统所使用的单片机为Arduino Uno R3,是Arduino系列的主力开发板。该单片机芯片是AVR系列的Atmega328P,该芯片提供了如下接口:14路数字I/O接口、6路模拟输入接口、6路PWM信号接口、1路I2C接口、1路SPI接口、1路UART接口,其内部闪存(Flash)有32KB,静态访问存储器(SRAM)2KB,可擦写存储器(EEPROM)1KB[13~14]。

5.2 模块的实现

LY-901拾音器按AA类放大器原理进行设计,以NE5532芯片为核心,从而消除了拾音器由于与后级负载之间连线长短、连线上分布电容大小、负载输入阻抗等原因而对拾音质量造成的影响。其电器参数如下:工作电压(直流),6V~12V;频率响 应,100Hz~5500Hz;输 出 信 号 幅 度,2.5Vpp/-25dB;输出阻抗600Ω。采集到的3路音频信号进入单片机系统的数—模转换模块,进行模拟信号到数字信号的转换,以进行后续的数字信号处理[15]。

机器人听觉感知实验电路原理图2所示。

图2 机器人听觉实验电路原理图

仿生机器人最后完成图如图3所示。

图3 机器人完成图

5.3 程序代码

5.4 程序说明

在程序void setup()部分,对各硬件结构的引脚分配做了说明。其中,对常数项glanceMillis定义了一个以毫秒为单位的最小延时,一旦触发,机器人LED眼睛会向声源做出“瞟一眼”的动作,但不会转动颈部做出定位声源的动作。

在主循环程序中,在对经过时间变量current-Mills清零以前,读入声音传感器和PIR传感器的返回值,通过比较三个声音传感器的振幅大小差异来确定声源的位置。

PIR传感器(以右侧PIRR为例),其逻辑是:PIRR为高电平且右边检测到声音:机器人颈部向右转动;仅仅PIRR为高电平时,颈部不转动;PIRR为高电平且左边检测到声源时,颈部不转动。换言之,当PIR传感器和声音传感器同时满足时,机器人颈部才会转动。

在程序中,利用心理声学模型,使机器人能够对更小振幅但持续时间更长的声音做出反应。对于常量MicTriglow和MicTrighigh分别定义了与持续时间有关的触发电平和与持续时间无关的触发电平,当检测到声音振幅等于或大于由MicTrighigh定义的触发电平时,该系统就触发,这是机器人不考虑心理声学关于声音的持续时间。但如果声音振幅大于MicTriglow且小于MicTrighigh的定义值,则机器人需要考虑心理声学关于声音的持续时间,即声源的持续时间必须大于或等于常数Lowsound-Millis所限定的时间。

6 结语

机器人听觉定位跟踪声源系统研究是当前国际上的前沿课题。它是机器人实现智能化必不可少的一部分,是智能科学研究成果在机器人上的体现。要进一步发展仿人机器人的声音定位及听觉的问题或设计新的模型,还需要一个不断改进和持续研究的过程。在本课题实验研究中,以心理声学模型为基础,实现了仿生机器人声源定位功能、听觉的正常行为功能,特别是使机器人具有了基于心理声学的声源识别功能。从听觉生理学、听觉心理学、人工智能等专业实现跨学科领域综合研究方面做了有效的探索研究。本文研究成果为机器人仿人生物体特性研究提供了一定的借鉴。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!