智能语音识别系统在智能家居中的应用

时间：2024-05-18

胡冬琴　王琳娜

摘要：本设计采用高性能处理器，高速数据传输功能的802.11AC WiFi芯片以及语音处理DSP芯片为架构，利用智能麦克风为输入口，通过语音识别技术构成整个技术平台，收集到的语音数据会通过WiFi或者4G通讯模组被发送到云端服务器进行处理，组成一套完整的智能家居语音控制系统。

关键词：语音识别智能家居 WiFi

中图分类号：G64 文献标识码：A 文章编号：1672-3791（2018）12（c）-0040-02

1 智能家居的意义

在智能家居方面，总能听到用户对手机作为唯一入口的抱怨，客厅应该是一个首先受益于语音识别的地方，因为传统电视遥控器的众多按键就让电视的操作很不方便，新的互联网电视更是让很多人尤其是老年人不知道怎么使用，而语音识别使得你可以直接对电视说出你想看什么节目，想看什么电影则更是会方便很多。其次是灯、空调、窗帘等这种高频次简单操作类的家居设备，语音识别将给人带来大大的方便。目前，从目前国内外的研究情况来看，在智能家居应用中，以智能音箱、智能开关等家居为载体的语音识别技术应用越来越广泛。利用亚马逊的echo智能音箱、阿里巴巴的X1智能音箱等，都是行业的标杆性产品。因此，我们有必要研究出相关的应用方案，并在智能家居中推广，利用语音识别技术去控制家里的冰箱、空调等设备。然后把这种研究成果转化成课程改革项目并做成课程模块进行推广，具有很好的现实意义。

本项目主要使用高性能处理器，高速数据传输功能的802.11AC WiFi芯片以及语音处理DSP芯片为架构，搭建整个系统平台，利用智能麦克风为输入口，通过语音识别技术构成整个技术平台，收集到的语音数据会通过WiFi或者4G通讯模组被发送到云端服务器进行处理，这样就组成一套完整的智能家居语音控制系统。项目中涉及的语音处理DSP系统，使用业内最流行的Knowles公司的Audio DSP系统，具有非常高的处理性能，是目前应用最流行的语音处理芯片，非常适合应用在智能家居语音控制系统中。本项目涉及的智能家居语音控制系统主要使用全志公司的充电芯片、高端ARM A处理器芯片，以及博通公司的802.11ac WiFi芯片，集成在一起组成一款高性能的智能化的语音控制设备。

2 系统硬件设计

系统硬件设计主要是语音控制终端，终端的主要作用为：带有麦克风阵列，可搜集各个方向的声音，收集到的声音被送到语音处理器进行语音唤醒，并把有用的语音信息进行语音识别，高性能处理器会根据识别的语音进行下一步的控制动作，控制相应的家居设备，一些设备信息和不能识别的语音信息将被传到云端服务器。系统硬件主要包括ARM处理器、4G模块、存储器以及WiFi模块，Audio处理器单元以及供电系统。

2.1 语音识别和麦克风阵列原理

所谓麦克风阵列就是放置在空间中不同位置的多个麦克风。根据声波传播理论，利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制，利用这种方法，麦克风阵列可以将噪声环境中特定声音信号有效增强。麦克风阵列技术广泛应用于智能家居中，它负责对从声源来的声音进行采集并进行识别，系统根据识别的结果进行动作的处理。麦克风阵列和语音识别的原理如下：模拟语音信号经语音处理器采样，采样的频率设置为8kHz，则一秒钟采样8000次，一个采样点按8bit的精度量化，那么一秒钟就有8000×8bit=64×103bit≈8kByte（小于）。将采样信号送入到RAM中；在系统RAM中，设置三段缓存区，每段大小为8kB，也就是一段缓存区存满的时间为1s，三段缓冲区循环利用，提高系统的实时性；当一段缓存区数据填满后，系统从缓冲区中取出数据，并对数据进行分析，首先对数字语音信号进行加窗分帧，采用汉明窗，取每帧的长度为20ms，帧移为10ms，每帧包括160个采样点，进行端点检测，若检测到不是语音信号的起始点，则直接丢掉；若检测到时是语音信号的起始点，则从该帧开始，对每帧数字信号提取特征参数，并存放到特征参数模板库中，也即一段内存中，依此类推，当检测到数字语音信号的终点时，则停止进行特征参数的提取和存放。循环进行，这个循环的次数即训练要求的次数。

2.2 高性能ARM处理器

在本系统采用Rock Chip公司的高性能微处理RK3288，这是一款四核Cortex-A17，主频为1.8GHz，被认为是近几年应用最为广泛的ARM处理器，支持MIPI、USB OTC、支持5路USB2.0 HOST等高性能数据传输和显示接口，能够满足项目的研发需求。RK3288在整个系统如同人的大脑，它是整个系统的核心部分，它负责语音信号的收集并把这些语音信号进行识别，它要把这些从麦克风阵列采集到的数据进行“翻译”，并根据这些指令去控制相应的控制设备。RK3288采用Linux操作系统，可以运行802.11ac/b/g/n/c无线通讯协议，使系统没有4G网络时与WIFI路由器连接。

2.3 无线通讯4G模块及Wi-Fi模组

采用SIMCOM公司的SIM7600CE模块作为整个系统的蜂窝解决方案，负责把需要发送的数据发送到云端服务器，SIM7600CE模块可支持GSM、WCDMA、TDD-LTE和FDD-LTE功能，具有很高的性价比。SIM7600CE提供一路SPI接口，两路SDIO接口电路，很方便的与MCU进行数据通信，也提供了一路USB2.0接口，以便于进行程序调试。采用博通BCM4356方案，通过PCIe接口与处理器连接，信号从天线到2.4G&5.8G的双频天线，到Diplexer 来进行天线频率的选择，进入到芯片内部进行处理。系统采用DDR3L类型的RAM和三星存储器KLM8G1GEND，这两种器件具有性能稳定，读取速度快的特点，方便系统重启时恢复。

3 系统软件设计

系统软件主要包括服务器软件，以及语音控制终端软件两个部分组成，服务器端软件主要存储语音控制设备上传得数据，以及供用户通过Web的方式登录服务器并去查询设备的一些信息。数据服务器可分为前端页面导航部分和后端架构模型部分，前端页面导航部分负责展示系统的整体拓扑结构，后端架构中的Web Socket服务，负责服务器与网关的实时通讯。

采集端的软件设计过程是：首先，用户通过特定的语音去唤醒语音控制终端，语音控制终端通过麦克风阵列采集语音数据，采集到的数据被送到RAM中进行语音识别，由于Audio处理器内部的RAM比较小，只能识别少数的语音指令，大部分的语音指令需要通过麦克风阵列―――〉Audio 处理器―――〉高性能ARM处理器―――〉WiFI/4G模组，然后数据被发送到云端处理器进行语音分析，分析完成后会翻译成约定的通讯协议通过云端服务器―――〉高性能ARM处理器，再通过路由器发送给其它设备进行相应指令的操作。

4 总结

从这个系统的架构来看，本系统的核心在于语音识别和云端部分的系统设计。本项目具有语音数据采集、识别、传送、返回、执行的全过程，这是一个典型的物联网系统架构，这样架构的语音识别控制平台，具有识别准确、反映迅速，执行快的特点，这样的产品将会在智能家军中会应用越来越广泛。本系统架构简单，开发快，成本低，产品化后肯定能够快速的打开市场，为企业带来价值。

参考文献

[1] 俞栋. 语音识别实践[m]. Kindle电子书，2016.

[2] 海登. 智能家居原理及應用[m]. 武汉：华中科技大学出版社，2014.