简 介: 以手势识别为代表的人类活动识别是一种重要的人机交互方式,其在可穿戴设备、虚拟现实以及驾驶舱智能交互等领域有着重要的应用前景,其中基于雷达前端的手势识别方法是相关研究的热点。本文针对基于超声波雷达的手势识别问题,设计了3种不同的特征提取方法,搭建、训练和测试了工作在不同特征提取方式下的卷积神经网络、长短时记忆网络以及端到端网络,以考察在超声手势识别问题上应用深度学习模型的可行性及方法。实验结果表明,本文实现的多种深度学习模型均具有较好的手势识别能力,其中基于人工提取特征的长短时记忆网络在识别准确率和模型尺寸上分别为95.8%和12.49MB,优于其他模型,有部署在实际的超声手势识别系统中的潜力。
关键词
: 人类活动识别,超声手势识别,深度学习,卷积神经网络,长短时记忆
- 系 别:集成电路学院
- 专 业:集成电路工程
- 姓 名:康丕熙 程 旭
§01 引 言
人类活动识别(Human Activity Recognition, HAR
)是一种具有长远发展潜力的人机交互(Human-Computer Interaction, HCI
)方式;在其执行过程中,使用者的动作、姿势或行为能够被系统捕获和识别,进而作为激励触发相应的操作。随着传感器和数据处理技术的发展,HAR
的应用边界正逐渐扩展,如今在个人电脑、AIoT
设备、乃至虚拟现实(Virtual Reality, VR
)等领域中都能看到其身影。HAR
的处理流程通常可划分为四个阶段:传感器数据采集、时序数据分段、特征提取和识别[1]
。设计者可以通过调整各阶段的工作方式来适配不同的人类活动,如手势[2]
、手臂挥舞[3]
、踝关节活动[4]
等。基于多种类型HAR
,衍生出了诸如浮空书写识别[5]
、无接触式后备箱开启[6]
和驾驶舱智能交互[7]
等形式丰富的应用。
手势是人类最为自然和高效的交流方式之一,手势识别(Hand Gesture Recognition, HGR
)也在人机交互中也占有重要的位置,其无声、幅度小、强度低等特点有利于保护使用者的隐私和减少使用时的疲劳感。典型的适用于HGR
前端传感器包括光学图像传感器、基于微机电系统(MEMS
)的惯性传感器、表面肌电信号(sEMG
)传感器和基于雷达的传感器等,其中基于雷达传感器前端的HGR
系统因为具有不依赖光照、不泄露隐私和非接触性的特点而广受青睐,Google
公司所开发的Soli
即为一款基于60GHz
毫米波雷达的HGR
系统,其高鲁棒、高分辨率、低功耗和低存储的特点使得其能够部署在移动端和嵌入式设备中[8]
。相较于射频波段的雷达前端,采用更低频段的雷达有望进一步降低前端电路的复杂程度和减小功耗,其中基于超声雷达前端的HGR
有望成为未来低功耗应用场景下手势识别的主流技术。
机器学习相关理论和技术的发展极大地推动了以手势识别为代表的人类活动识别的发展,其主要贡献在于大幅度增强了系统从传感器原始数据中提取有效信息的能力,并一定程度上降低了对传感器原始数据人工可解释性的要求,从而能够在扩展可用传感器类型范围的同时保证较高的识别准确率,或从另外的角度来看,后端先进的机器学习算法留下的性能余裕可以用来换取前端更好的用户体验。
现有的雷达手势识别算法依据其面向的应用场景,可大致分为两类:
(1
)计算存储开销要求大于性能要求:由于手势识别系统所依托的可能是移动端或嵌入式平台,其存储和计算资源相对受限,从而无法部署大模型尺寸和高计算开销的机器学习模型,在此场景下,传统的机器学习算法如随机森林(Random Forest, RF
)、支持向量机(Support Vector Machine, SVM
)和隐马尔科夫模型(Hidden Markov Model, HMM
)等更受到青睐。例如,Soli
的后端采用了RF
分类器[8]
;Ghaffar
等人针对隔空操纵电子菜单的应用,使用多分类SVM
实现了对点击手势的分类,并在3x3
的菜单网格上取得了96.75%
的准确率[9]
;Sang
等人对超声回波信号处理得到RDM
(Range-Doppler Map
)帧序列,为进一步降低复杂度将每帧映射到一个整数,以此来训练一个离散发射分布的HMM
来对7
种预定义手势进行分类,并取得了90%
的识别准确率[10]
。经典模型的存储开销相对较小,通常能够控制在KB
量级,然而在识别性能上相对较弱,且通常需要精心设计的人工特征。
(2
)性能要求大于计算存储开销要求:当手势识别系统所依托平台的存储计算资源丰富或面向的应用场景要求识别性能较高时,以卷积神经网络(Convolutional Neural Network, CNN
)、长短时记忆(Long Short-Term Memory, LSTM
)为代表的人工神经网络模型是主流的选择。例如,Skaria
等人将两通道回波信号的时频图和一张到达矩阵的相角图作为深度CNN
网络的输入,在14
种手势上取得了95%
的准确率[11]
;Choi
等人基于Soli
开发了LSTM
后端的手势识别系统,从回波信号提取出RDM
流之后,对每一帧RDM
处理得到距离轮廓(Range Profile
)和多普勒轮廓(Doppler Profile
),将二者拼接后作为LSTM
的输入,并在10
种预先定义的手势上取得了高达99.10%
的识别准确率[12]
;Sang
等人为与HMM
方案做对比实现了end-to-end
网络,即在LSTM
之前级联CNN
网络用来提取RDM
的帧级特征,最终在7
种手势上取得了96.34%
的准确率,超过HMM
方案6.96%[10]
。Lei
等人开发了基于DS-3DCNN-LSTM
(Dual Stream Three-Dimensional CNN-LSTM
)后端的手势识别系统,其主要特点在于采用了两个3DCNN
分支分别对RDM
流和RAM
(Range-Azimuth Map
)流进行特征提取,并在输入LSTM
之前进行特征融合,该模型在10
种手势上取得了97.66%
的平均识别率[13]
。随着深度学习理论日趋成熟,一些更加轻量的算法被提出,即使在资源受限场景下CNN
和LSTM
也有取代经典模型的趋势;因此,讨论基于深度学习的雷达手势识别算法有着重要的现实意义。
本文主要考察了深度学习模型在三种不同的特征提取策略下对雷达手势的识别能力,讨论了不同特征提取策略、不同网络结构对手势分类的影响,其中特征的形式包括:(1
)RDM
;(2
)Range-Doppler Profile
;(3
)人工定义特征。对于这三种形式的特征,我们分别训练了对应的CNN
和LSTM
模型,此外我们还训练了一个由CNN
和LSTM
拼接而成的end-to-end
模型,该模型也可以认为是一种由CNN
提取特征的LSTM
分类器。
本文剩余内容的组织形式为:第二章介绍了数据预处理和特征提取方法;第三章介绍了本文的实验部分,即数据集及其划分、CNN
模型的结构及训练方法、LSTM
模型的结构及训练方法以及end-to-end
网络的结构及训练方法;第四章给出了对不同模型的实验测试结果,并对结果进行分析讨论;第五章总结了本文的工作。
§02 数据处理
本章设计数据预处理及特征提取 ,本文所采用有关手势识别的训练与测试数据集类型为超声波经反射后,由三通道接收器采样的信号回波。该超声波信号为一相参脉冲信号,此类信号可以同时实现对距离和速度的测量。其脉冲宽度