时间:2024-05-04
刘晓晖 秦子实
摘要:近年来,5G技术的发展带动物联网设备快速普及,以树莓派为代表的卡片计算机大量出现在工程应用的各个方面。而在音频采集处理方面,基于树莓派的麦阵列声源采集具有高算力、高精度、低功率的特点。本文介绍基于sounddevice的采集、分发、播放音频流的方法,该方法可以对音频数字信号进行自定义预处理,支持多种数据分发方式,系统依赖少,代码简单且方便部署。
关键词:物联网设备;树莓派;音频采集
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2021)17-0036-02
开放科学(资源服务)标识码(OSID):
1 概述
树莓派是一种尺寸极小的计算设备,具有包括处理器、内存、外村在内完整的计算机硬件要素,通常运行基于Debian的Linux系统,功率约5W,具有丰富的外部接口。由于通用性强且已被市场广泛应用,目前具有大量适配的高质量、低成本传感器。
本文介绍基于树莓派3B+平台及SeeedReSpeaker6麦阵列,运行Raspbian buster系统,使用sounddevice库(以下简称sd)的声源采集方案的设计与实现。该环形麦阵列精度较高、价格较低,适合在声源定位、音频采集项目中低成本部署。
2音频采集
2.1 硬件识别
通过sounddevice库进行音频数据相关操作,首先需要识别声卡并确定麦阵列声卡的系统ID。可以通过sd.query_devices()函数确认系统识别的音频设备列表,返回示例如下:
“seeed-8mic-voicecard”即为麦阵列声源采集设备(序号为2),具有8路输入,即2颗AC108 ADC芯片,每芯4路输入其中1路为playback,则实际采集为6路。麦阵列自带声卡输出,即AC101 DAC芯片(序号为6),2路输入2路输出,占用树莓派3.5mm耳机监听接口。因此,sounddevice库主要使用序号2及序号6设备进行音频数据的输入输出。通过以下代码获取输入输出设备ID:
2.2 音频采集及监听
sounddevice库支持两种数据封装格式,RawStream将数字信号转为buffer对象进行传输,而Stream将RawStream再次封装为numpy数组进行传输,需要numpy支持,更方便数据操作,本文选用Stream方式,发送numpy数组。
数据流发送有两种方式:阻塞方式的和非阻塞回调方式,为方便调试,本文选用非阻塞回调方式,即音频数据流发送开始后立即返回,这样可以继续在解释器中继续执行其他作业。启动音频流的方法如下:
[rs = sd.Stream(samplerate=48000, device=iodevs, channels=[8, 2], callback=cb, finished_callback=fcb) ]
其中最主要的参数为回调callback,该函数将输入输出联系起来,这个回调所要求的函数签名为:
[callback(indata: ndarray, outdata: ndarray, frames: int, time, CData, status: CallbackFlags) -> None ]
其中indata參数时输入设备传入的数据,即序号2的麦阵列,通常采用48Khz采样率,每次回调传入的numpy数组维度均为(512, 8),约为10ms的音频数据,延迟较低。outdata是传给输出设备的数据,传给输出设备的数据,在sd.Stream的声道配置为[8, 2]即8路输入2路输出,因此需要将indata的8列数据转为2列赋给outdata(如每4路求平均),此时3.5mm监听接口由于channels参数输出设备的选择,将有麦阵列采集的音频信号输出。回调函数示例,本文使用简单的求平均法,将每4声道数据求平均,使得原8列数据转为2列数据:
剩余的参数中,frames为帧数,本文中即512;time是一个CFFI的C结构体,包括输入开始时间inputBufferAdcTime、输出开始时间outputBufferDacTime、本次callback被调用的时间currentTime三个成员;status为本次回调状态,可以在此发送终止指令。
使用sounddevice将输入处理后直接赋给输出,经实测延时极低,采集效率较高。
3 音频数据分发
3.1 数据收发
由于在48000kHz采用率下,未经压缩是数据量较大(理论值约1.465MB/s),因此本文选用ZeroMQ分发numpy数组。ZeroMQ支持包括推送模式、拉取模式、MapReduce模式等多种分发方式,高效灵活,可以按照实际应用场景灵活选择。
ZeroMQ在Python下的支持库名为pyzmq,在发送numpy数组时需要注意,pyzmq直接发送numpy数组时,ZeroMQ会使用Python的memoryview直接将数组转换为字节发送,由于转换过程仅保留数据,数组的dtype类型信息和shape维度信息将丢失。因此,在发送数组时,需要使用ZeroMQ的SNDMORE标识,先发送数组属性,再发送数组内容,如此即可在接收端重建完整数组。发送端的函数示例:
可以在分发时在md字典中添加其他属性,如帧序列等信息,以辅助分发、重建及显示,并不影响numpy数组重建。
3.2 数据重建及播放
在数据接收设备上,同样按照2.1节的方法找出本地音频输入输出设备(若是对数据进行重建并播放,则主要使用输出设备)。鉴于发送端采用48000KHz采样率,接收设备若希望能够正常还原并播放音频数据,同样需要调整设备声卡采样率至48000KHz,否则重组数据播放将有明显的滞后。
接收设备收到的numpy数组每帧同样为(512, 8)的维度,若接收设备播放为双声道,同样需要进行调整输出维度,安装2.2节的回调函数进行按列求平均合并。
3.3 未来的改进
本文实例为最简单的原理展示,若进行工程应用需要注意,ZeroMQ与目前流行的其他消息队列相比,具有极小极快可嵌入的优点,但缺点也较为明显——未配备持久化模块。本文经测试,在网络状况一般的环境中(如某些无线网络),若网络承受不住过大的数据流量,ZeroMQ发送端将出现消息堆积现象,并在缓存满后直接丢弃数据,在接收端的现象为数据滞后越来越大,在一定时间后重新同步至最新数据,滞后未收到的数据将丢失。ZeroMQ因库应用场景及大小考虑,虽不提供官方持久化方案,但支持用户自定义持久化,在工程应用中,应自行定义持久化模块,以防数据丢失。
4 结束语
本文介绍了基于树莓派的物联网设备进行音频数据采集,并使用ZeroMQ进行实时数据分发的方法,系统依赖少且部署简便。该方法基于物联网设备,在保证一定的数据处理能力的情况下维持低功耗。数据分发仅基于TCP socket,对网络拓扑及协议没有特殊要求,兼容性良好且分发效率高,同时兼顾了多种的数据分发模式,可以在不同的场景中进行灵活应用。
【通联编辑:梁书】
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!