针对人工提取特征的单一性及卷积神经网络提取特征的遗漏性问题, 提出了一种基于多特征加权融合的静态手势识别方法. 首先, 提取分割后的手势图像的傅里叶和Hu矩等形状特征, 将两者融合作为手势图像的局部特征; 设计双通道卷积神经网络提取手势图像的深层次特征, 采用主成分分析方法对提取的特征进行降维; 然后, 将提取的局部特征和深层次特征进行加权融合作为手势识别的有效特征描述; 最后, 使用Softmax分类器进行手势图像分类. 实验结果验证了提出方法的有效性, 在手势图像数据集上的识别准确率达到了99%以上.
Static hand gesture recognition based on multi-feature weighted fusion is proposed to solve the problems of singularity and omission in convolutional neural network for feature extraction. Firstly, the Fourier and Hu moments of the segmented gesture image are extracted and fused as the local features. Besides, a dual-channel convolutional neural network is designed to extract the deep features of the gesture image, which are further treated by dimensionality reduction by principal component analysis. Secondly, the extracted local and deep features are weighted and fused as effective description for hand gesture recognition. Finally, gesture images are classified with Softmax classifier. Experimental results verify the proposed method, and the recognition accuracy reaches over 99% on the image dataset.
手势识别作为一种新兴的人机交互技术, 被广泛应用到虚拟现实系统、互动游戏平台、手语识别和控制机器人等领域[
Hu矩特征和傅里叶描述子是常见的图像特征, 常用来描述图像的轮廓信息, 因其具有平移、旋转和尺度不变性, 常用来进行手势建模. Paulraj等[
基于卷积神经网络的手势识别方法可以从大量数据中自主学习手势图像的深层次特征. Pigou等[
综上所述, 单一特征的手势识别在复杂背景下的识别率有待提高, 因此, 本文提出了基于多特征加权融合的静态手势识别方法. 该方法提取分割后的手势图像的傅里叶和Hu矩等形状特征, 将两者融合作为手势图像的局部特征, 利用优化的VGG网络和轻量级AlexNet网络设计双通道卷积网络模型, 用来提取手势图像的深层次特征, 最后将分割后的手势图像的局部特征与手势灰度图像的深层次特征进行加权融合, 使融合后的特征更有效. 手势识别算法流程如
手势识别算法总体框架
本文采取肤色聚类及腐蚀、膨胀等一系列形态学操作对手部区域进行预处理[
手势预处理
傅里叶描述子(Fourier Descriptor, FD)是一种计算简单的手势图像形状和边界特征的表示方法[
其中,
为了保证手势图像在空间域中旋转、平移以及尺度变换的稳定性, 需要对傅里叶描述子进行归一化. 归一化傅里叶描述子
其中,
Hu矩能够全面地描述手势图像的形状特征, 且不受手势旋转和缩放等因素的影响, 因此本文采用Hu矩特征提取手势图像的形状及轮廓特征, 并将其作为手势图像的局部特征.
手势图像的
其中,
则对应的图像的
其中,
其中,
Hu矩特征包含手部区域的重心、手部区域的面积以及对称性等局部特征, 通过手势图像的二阶和三阶归一化中心矩的线性组合可以构造7个不变矩, 具体计算公式如下:
根据7个不变矩的具体计算公式对手势图像进行特征提取, 形成的特征向量为
使用Hu矩和傅里叶描述子不能完整的描述手势图像的局部表征信息, 导致对手势图像的描述不够完整. 另外, 使用通用的特征描述子提取的特征不能适应多变的手势背景环境. 此外, 在样本量不断增大的情况下, 人工设计手势特征的方法在特征学习方面和识别率方面表现出了局限性. 目前, 卷积神经网络(Convolutional Neural Networks, CNN)已经成为模式识别领域的研究热点之一, 其在特征提取阶段表现出优越性, 因此普遍应用在大规模图像分类中. 然而, 由于目标手势在手势图像中占比较小, 往往需要训练较深的网络层来提高手势识别的精度, 但设计深层网络容易产生冗余参数, 不仅容易产生过拟合问题, 而且影响手势识别的实时性, 而参数量较少的浅层网络不足以满足手势特征表示. 故本文设计了一种新的双通道卷积神经网络特征提取方法来提取手势图像的深层次特征, 以提高手势识别精度和实时性.
本文采用轻量级AlexNet网络和优化的VGG网络作为网络模型的子结构来设计双通道卷积神经网络模型, 其结构如
基于双通道卷积神经网络的手势图像深层次特征提取
AlexNet网络是2012年提出的一种深度神经网络, 其网络结构的结构图如
AlexNet网络模型改进及参数量变化
AlexNet网络 | 参数量 | 轻量级AlexNet网络 | 参数量 |
11×11 Conv, 96, pool/2 | 34944 | 11×11 Conv, 96, pool/2 | 34944 |
5×5 Conv, 256, pool/2 | 614656 | 5×5 Conv, 256, pool/2 | 614656 |
3×3 Conv, 384 | 885120 | 3×3 Conv, 384 | 885120 |
3×3 Conv, 384 | 1327 488 | 3×3 Conv, 48 | 165936 |
3×3 Conv, 256, pool/2 | 884992 | 3×3 Conv, 32, pool/2 | 13856 |
Fc, 4096 | 37752832 | Fc, 128 | 147456 |
Fc, 4096 | 16781312 | ||
Fc, 4096 | 4097000 |
如
VGG是AlexNet网络的进阶版, 共有A、B、C、D和E等5种网络结构[
VGG网络结构图
考虑到双通道卷积神经网络生成的特征维度较大, 易造成特征表示的繁冗以及计算效率的降低, 因此, 需要对提取的特进行有效的降维. 使用PCA网络进行主成分分析是对多维数据进行统计分析的方法之一[
算法1. PCA降维算法
1 给定输入向量
2 求出协方差矩阵的特征值及对应的特征向量.
3 将特征值按照重要性排序
4 将得到的特征向量按对应特征值大小从上到下按行排列成矩阵, 取前
5
由于手形的复杂性, 只采取单一手势特征无法实现手势精准分类, 因此本文将提取的手势局部特征和降维后的深层次特征进行融合. 由于双通道卷积神经网络得到的深层次手势特征识别结果优于局部特征, 因此将提取的手势局部特征与手势深层次特征进行权重分配, 以得到较高的识别率.
实验数据集共包含26种手势, 由30位手语者采集而成, 单张手势图像存在脖子、干扰手臂和复杂的背景区域. 对于每位手语者, 每种手势采集50张手势图像, 包括不同背景、不同方向、不同光照的手势图像, 该数据集的手势图像总数为39000(=30×50×26)张. 本实验将手势图像按照3:1的比例设置训练集和测试集. 部分手势图如
部分手势图像数据集
为了选择最优的
为了防止手势图像识别模型出现过拟合问题, 本文网络的最大迭代次数设为60000次, 通过指数衰减策略来更新训练过程中的学习率,学习率更新公式如式(10).
其中,
为了验证本文所构建的双通道卷积神经网络提取手势图像的可行性, 对自建数据库中手势图像构建四组网络模型进行实验研究, 分别为: VGG网络模型、AlexNet网络模型、基于 VGG和AlexNet的双通道卷积神经网络模型、基于优化的VGG和轻量级AlexNet的双通道卷积神经网络模型. 实验结果如
使用不同
为了进一步验证本文提出方法的有效性, 本文在ASL公共手势图像数据集上进行了实验研究, 得到识别准确率为96.42%. 与MPC方法[
不同网络结构对手势图像的识别效果
不同方法对不同数据集的识别结果
识别方法 | MPC | CNN | DBN | HSF-RDF | 本文方法 |
识别率(%) | 90.19 | 88.22 | 96.14 | 75 | 96.42 |
为了提高网络稳定性, 本文在VGG网络模型中增加BN层, 其变化结果如
添加BN层的网络模型对比
基于双通道卷积神经网络的特征提取方式虽然能提取手势灰度图像的深层次特征, 但会引起前层网络提取的手势局部特征丢失. 而手势局部特征在相似背景下手势图像识别中起到了非常关键的作用[
不同特征组合的实验结果
通过对ASL公共手势图像数据集进行对比实验, 本文设计的双通道网络的识别准确率已达96.4%. 但由于自建数据库中每张手势图像均存在脖子、干扰手臂等复杂背景, 现有方法的识别准确率不高. 故本文提出融合局部特征和深层特征方法进行手势识别提高复杂背景下手势图像识别率. 为了验证局部特征和深层次特征在手势特征表示中所起作用, 赋予手势局部特征不同的权重对
为了验证本文提出方法对自建数据库中手势图像的有效性, 对自建数据库进行实验测试. 与现有手势数据库(ASL)相比, 自建数据集共包含26种英文字母手势, 且单张手势图像存在脖子、干扰手臂和复杂背景区域等, 故现有方法难以实现对自建数据库的准确识别. 为了减少手势图像中脖子、干扰手臂和复杂的背景区域等干扰信息, 本文设计基于手臂分割获取局部特征方法, 解决深层次特征在卷积过程中局部信息丢失问题. 本文提出方法对
不同局部特征权重比下的手势识别率
字母手势识别结果
字母 | 识别率(%) | 字母 | 识别率(%) | 字母 | 识别率(%) |
A | 100 | J | 98.91 | S | 98.93 |
B | 98.21 | K | 100 | T | 100 |
C | 99.42 | L | 98.52 | U | 97.93 |
D | 98.93 | M | 96.67 | V | 98.75 |
E | 97.98 | N | 96.86 | W | 98.81 |
F | 99.82 | O | 96.73 | X | 100 |
G | 98.85 | P | 98.87 | Y | 99.95 |
H | 97.89 | Q | 98.65 | Z | 99.53 |
I | 97.63 | R | 99.79 |
本文提出了基于多特征加权融合的手势识别方法. 该方法使用傅里叶描述子和Hu矩提取分割后的手势图像的形状特征, 将融合后的特征作为手势图像的局部特征. 其次, 对VGG网络模型和AlexNet网络模型进行优化, 并利用优化的VGG网络和轻量级AlexNet网络构建双通道卷积神经网络结构, 提取手势图像的深层次特征, 采用主成分分析方法对深层次特征进行降维, 并将降维后的特征与局部特征进行加权融合, 以充分利用手势的各部分特征; 最后, 采用Softmax分类器对输入的特征进行识别, 实验结果表明, 提出的方法对手势图像的识别准确率较高. 虽然本文方法在进行手势图像识别时取得了较好的效果, 但是训练网络模型仍需要较长的学习时间, 未来将致力于减少算法运行时间, 并将其应用在大型数据集中.
Wang C, Liu Z, Chan SC. Superpixel-based hand gesture recognition with kinect depth camera. IEEE Transactions on Multimedia, 2015, 17(1): 29–39.
Ren Z, Yuan JS, Meng JJ, et al. Robust part-based hand gesture recognition using kinect sensor. IEEE Transactions on Multimedia, 2013, 15(5): 1110–1120.
Hikawa H, Kaida K. Novel FPGA implementation of hand sign recognition system with SOM–Hebb classifier. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(1): 153–166.
田秋红, 杨慧敏, 梁庆龙, 等. 视觉动态手势识别综述. 浙江理工大学学报(自然科学版), 2020, 43(4): 557–569.
Fernando M, Wijjayanayake J. Novel approach to use HU moments with image processing techniques for real time sign language communication. International Journal of Image Process, 2015, 9(6): 335–345.
李丹娇, 彭进业, 冯晓毅, 等. 结合CSS与傅里叶描述子的手势特征提取. 计算机工程, 2012, 38(6): 178–180.
Rao GA, Kishore PVV, Kumar DA, et al. Neural network classifier for continuous sign language recognition with selfie video. Far East Journal of Electronics and Communications, 2017, 17(1): 49–71.
Rahmany I, Nemmala MEA, Khlifa N, et al. Automatic detection of intracranial aneurysm using LBP and Fourier descriptor in angiographic images. International Journal of Computer Assisted Radiology and Surgery, 2019, 14(8): 1353–1364.
https://arxiv.org/abs/1409.1556. (2014-09-04)[2015-04-10].]]>
Mrówczyńska M, Sztubecki J, Greinert A. Compression of results of geodetic displacement measurements using the PCA method and neural networks. Measurement, 2020, 158: 107693.
Pansare JR, Gawande SH, Ingle M. Real-time static hand gesture recognition for American Sign Language (ASL) in complex background. Journal of Signal and Information Processing, 2012, 3(3): 364–367.
Guo S, Huang WL, Wang LM, et al. Locally supervised deep hybrid model for scene recognition. IEEE Transactions on Image Processing, 2017, 26(2): 808–820.