前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇基于神经网络的手势识别范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
【摘要】 手势语言在日常生活中有着广泛的应用,本研究利用手势动作时从前臂4块肌肉上获取的4路表面肌电(SEMG)信号,经特征提取并采用BP神经网络,对8种手势动作模式进行了识别。鉴于BP网络具有较强的模式分类能力,而特征提取(幅度绝对值均值、AR模型系数、过零率)又利用了多路肌电信号的信息,实验结果取得了较高的识别正确率,表明所采用的方法是有效的。
【关键词】 模式识别;手势语言;表面肌电信号;BP网络; AR模型系数; 过零率
Abstract:Sign language is widely used in our daily life. In this paper, some features are extracted, using surface myoelectrogram(SEMG)signals, which were generated on four muscles of forearm when gesture actions happened. Owing to stronger classification ability of BP networks and better separability of feature vectors(which include mean absolute value, AR model parameters, and zerocrossing rate) extracted from multichannel SEMG signals, the higher accuracy was obtained in the experiments. It shows that the method is efficient.
Key words:Pattern recognition; Sign language; Surface myoelectrogram signals; BP networks; Auto-regressive model parameter; Zero-crossing rate
1 引 言
手势语言在人们日常生活中的应用极为广泛,如交警指挥交通,排球场上裁判的手势,聋哑人之间的手语交流等等。而且,许多手势动作在不同地域是通用的,这就为不同语种的人们相互交流提供了方便。
目前,对于手势语言的识别主要有基于数据手套[1]的手语识别和基于视觉图像[2]的手语识别,前者识别率高,但输入设备昂贵,难以普及;后者输入设备简单,但识别率较低,实时性比较差。由于手势动作与手指和关节的运动相关联,而手指和关节的运动又由对应肌肉群所控制,因此,可以通过控制相关肌肉活动产生的表面肌电(SEMG)信号及其差异来识别不同的手势动作。采用基于SEMG信号的手势动作识别的优点是:传感系统设计简单,对周围环境要求不高,处理算法的计算量也较少,它要解决的关键问题是提高对多种动作识别的分类正确率。
BP 算法结构简单,可操作性强,能模拟任意的非线性输入输出关系,常常被用于表面肌电信号的识别中。在神经网络的实际应用中,绝大部分的神经网络模型采用BP网络或其它的变化形式,它也是前向网络的核心部分,体现了人工神经网络中的精华部分[3]。
2 识别方法
手势动作SEMG的信号模式识别流程见图1。
图1 动作肌电信号的模式识别流程
Fig 1 The flow chart of gesture SEMG recognition
2.1 手势动作的定义
本研究借鉴Sign Language库中的常用手势定义,手势名称用四位英文字母命名,通常为英文描述的单词简写。我们选取了其中的八种动作,其名称和表述见表1。表1 动作的名称和含义
2.2 SEMG信号的获取和预处理
分别在前臂的尺侧腕伸肌、伸指总肌、指深屈肌和拇长屈肌安放4对电极(长10 mm,间距5 mm),检测手势动作时的SEMG信号。利用DELSYS公司的16通道肌电采集系统采集信号,该系统的低频截止频率为10 Hz,高频截止频率为500 Hz,设置数据采样率为1 000 Hz,得到4导数据,存入PC机。然后进一步利用巴特沃思带通滤波器对肌电信号数据进行滤波,滤波器的通带频率范围20~400 Hz,通带内衰减不大于3 dB,阻带内的衰减不小于40 dB。
2.3 活动段检测
动作SEMG信号可以分成许多活动段和非活动段,每个活动段代表一个有效动作,而非活动段仅由噪声和背景肌电活动组成。为了区分各单个动作信号,必须确定动作的起始和结束位置。由于背景噪声的能量比动作信号的能量小,采用一种反映信号能量大小的移动窗法[4]进行活动段检测。具体思路是:提取一小段时间内的信号数据, 对其进行平方积分,则有
Qi=∫ti+Δtti-Δtx(t)2dt(1)
其中x(t)是窗内的肌电信号数据,Qi表示ti时刻信号的能量值。Qi若大于某阈值A,且在窗移动后有连续n1次能量值Qk (k=i,i+1,…i+n1)都大于阈值A,则可认为ti时刻是动作的开始时刻。此后若有连续n2次能量值Qk(k=j,j+1,…j+n2)都小于某阈值B(B>A),则可认为动作结束,并以tj时刻为结束时刻。若能量值Q在A与B之间,则认为动作处于保持状态;若能量值Q小于A,则认为无动作产生。
2.4 特征提取
对肌电信号分析和处理常用的特征有:信号的平均值,方差,功率谱密度,AR模型系数等。其中AR模型系数是较常用的一种,它将肌电信号看作为零均值白噪声过程激励一线性系统的输出,只要激励白噪声的功率和系统的参数已知,就可以通过利用模型参数和性质以及白噪声通过此系统后的输入输出关系来研究肌电信号。参数模型把肌电信号的随机性和一定程度的可预测性结合起来,激励白噪声反映过程的随机性,确定性模型反映过程的可预测性[5]。一个随机信号的AR模型可以表示为:
x(n)=-∑pk=1akx(n-k)+u(n)(2)
其中ak为模型各阶系数,p为模型阶次,u(n)为白噪声。
由于不同种类动作信号的幅度不同,因此将动作信号幅度绝对值均值作为SEMG信号的另一种特征。
过零率即信号中波形穿越零电平的次数,用来描述波形在幅度上变化的剧烈程度,反映了信号的变化趋势,将它用作肌电信号的一个特征,其计算公式如下:
ZCR=∑N-1i=1[sign(-SEMG(i)×SEMG(i+1))∩|SEMG(i)-SEMG(i+1)|≥0.02](3)
上式的含义是,若同时满足相临采样点之间异号并且相临采样点差的绝对值大于一个常数(0.02)这两个条件,则可认为信号此刻存在一个过零点。式中的SEMG(i)是一个活动段的肌电信号,N为活动段长度,sign为符号函数:
sign(x)=1 x>0
0 x≤0(4)
考虑到描述信号特征的一种特征集只能从某一个角度对信号进行刻画,仅用一种特征参数难以很好识别不同动作,因此,我们将信号的AR模型系数、信号的过零率和信号幅度绝对值均值融合在一起构成SEMG信号的特征向量。由此一个活动段(有效动作)的一导数据的特征向量表示为a=[a1, a2, a3 ,a4, a5];其中:a1表示数据的幅度均值;a2、a3、a4分别是一导数据AR模型系数的前三项;a5是信号的过零率。
再考虑到各种手势动作是由相关肌肉群所控制,由其活动产生的各路SEMG信号及其特征是有差异的,故进一步将4导SEMG信号对应活动段提取的5个特征组合在一起,构成20维特征向量,这样更有利于对手势动作的识别。
2.5 BP神经网络分类器
BP算法是一种常用的神经网络算法,是一种监督式的学习算法。学习的目的是利用网络的实际输出与期望输出之间的误差来修改其权值,使实际与期望尽可能地接近,即使网络输出层的误差平方和达到最小,通过连续不断地在相对于误差函数斜率下降的方向上计算网络权值和偏差的变化而逐渐逼近目标。每一次权值和偏差的变化都与网络误差的影响成正比,并以反向传播的方式传递到每一层。BP算法分为两个阶段:第一阶段(正向过程)输入信息从输入层经隐层逐层计算各单元的输出值;第二阶段(反向传播过程)由输出误差逐层向前计算出隐层各单元的误差,并用此误差修正前层权值,具体算法可见文献[6]。采用的三层结构见图3。图3 BP神经网络的结构
Fig 3 The structure of BP networks
由于从动作肌电信号提取的特征向量维数是20,因此将BP网络输入层神经元个数设置为20,又根据待识别手势动作的种类数,输出层神经元设为8个,而隐层神经元个数S则由文献[7]中的公式确定:
S=m+n+a(5)
其中m、n分别表示输入层、输出层神经元的个数,a为常数,其值在1~10之间,具体数值根据实验效果选取。
3 实验结果
对5位身体健康,年龄在24~27岁的研究生进行数据采集。每人每天做一次前述的8类动作,每个动作20次,一共采集4天数据。首先对数据进行预处理(带通滤波)和活动段检测(移动窗法)。一段原始动作SEMG信号见图4(a),经活动段检测后,得到的对应SEMG信号的包络见图4(b),由此可以确定每个动作的起始和结束位置。
图4(a)原始肌电信号;(b)活动段检测后的信号
Fig 4 (a)raw signal;(b)signal passed through active segmentation
然后利用前述特征提取方法,提取每个活动段的5个特征,并由4导信号对应活动段的特征值组成20维特征矢量。图5表示两位受试者8类动作特征向量(选取1导信号5个特征中的3个分量)的空间分布。
可以看出:8类动作的特征类间分布差异明显,而类内分布具有较强的相似性,说明特征提取过程是有效的。由于信号幅度绝对值均值的量级比其他特征分量的量级大得多,为平衡各特征的贡献,对每图5 (a)特征向量的空间分布
Fig 5 (a)the distribution of feature vectors图5(b)特征向量的空间分布
Fig 5(b)the distribution of feature vectors
导数据幅度绝对值均值除以一个固定常数(500)进行归一化处理。
对于BP神经网络的训练,采用同一受试者同一天的数据,每类动作任选10个训练样本(剩下的10个样本作为测试样本),共80个动作样本构成训练样本矩阵(80×20),输入BP神经网络。对于每类动作样本,设定其相应输出节点的期望输出值为1、其它输出节点的值为0,进行训练。训练参数设置为 :初始学习率0.05;均方误差0.0005;最大训练步数3000。训练结束时,若均方误差大于0.01,则认为该次训练失败,再重新训练。训练完成后,输入测试样本对网络进行测试,测试样本也取80个。表2表2 识别的正确率
给出了对4天数据的测试结果,表中数据为正确的识别数,括号内为相应的识别率。
可见,各受试者的4天实验数据均取得了较高的识别正确率,手势动作识别的平均正确率达到了94%以上。
实验数据处理中发现,隐层神经元个数的选择对识别正确率的影响较大,因此,我们进一步探讨了识别正确率与隐层单元数之间的关系问题。图6给出了一个受试者同一天数据的处理结果,其他受试者处理结果类似。
容易看出:识别正确率随着隐含层神经元数目的增加而提高,但达到某一数值后趋于稳定。增加隐含层节点数可以改善网络与训练组匹配的精确度。然而,为了改善网络的推论概括能力,即改善对数据的适应性,又需要适当减少隐含层节点数[8]。综合考虑,最后我们选取了隐含层神经元个数取11,相应于式(5)中的a取6。
4 结论
本研究利用4路SEMG信号,对其反映的8种手势动作模式进行了识别。提取的特征是各路信号对应活动段的3阶AR模型系数、幅度绝对值均值和过零率,并将其组合成特征向量。采用的分类器为具有较强分类能力的BP神经网络。对不同人的多天SEMG信号实验数据进行了处理,均获得了较高的手势动作分类正确率,表明所采用的方法是有效的。
参考文献
[1]Ozawa R,Ueda N. Supervisory control of a multi-fingered robotic hand system with data glove[A].IEEE and RSJ international conference on Intelligent Robots and Systems[C].2007.1606-1611.
[2]Claudia Nlker , Helge Ritter. Visual recognition of continuous hand postures[J].IEEE Transaction on Neural Networks, 2002, 13(4) : 983-994.
[3]飞思科技产品研发中心. 神经网络理论与MATLAB7实现[M].北京:电子工业出版社, 2005: 99-100.
[4]雷敏,王志中.一种用于实时提取动作信号的新方法[J].中国医疗器械杂志,2000,24(4):200-202.
[5]罗志增, 杨广映. 表面肌电信号的AR参数模型分析方法[J].传感技术学报,2003, 4: 384-387.
[6]孙即祥. 现代模式识别[M].长沙:国防科技大学出版社, 2002:285-288.
关键词: 粒子群优化算法; 神经网络; 体育动作; 识别与分类
中图分类号: TN711?34 文献标识码: A 文章编号: 1004?373X(2016)19?0049?04
Abstract: In order to improve the recognition accuracy of sports action, a sports action recognition model based on particle swarm optimizing neural network is proposed. The background subtraction method is used to process the sports video image to obtain the profile of sports action, segment the sports action, and extract the features of sports action. The kernel component analysis is performed for features. The BP neural network is used to train the feature vector. The particle swarm optimization algorithm is used to select the parameters of BP neural network to establish the recognition classifier of sports action. The test results show that the proposed model can improve the recognition rate of sports action and reduce the false recognition rate of sports action, and meet the online recognition requirement of sports action.
Keywords: particle swarm optimization algorithm; neural network; sports action; recognition and classification
0 引 言
随着经济水平不断增长,人们越来越重视体育运动,而动作是体育运动的基本行为,对体育动作进行正确识别和分析,有利于规范运动员的动作和科学训练,提高运动员成绩,因此对体育动作识别进行研究具有十分重要的意义[1?3]。
体育动作识别是多分类的模式识别问题,包括两个关键问题:体育动作特征和体育动作的分类[4]。体育动作特征有侧影和轮廓两种类型,侧影特征维数高,使得体育动作的分类器输入向量数量过大,计算时间复杂度较长,不能满足体育动作的在线识别要求[5?7]。相对于侧影特征,轮廓特征能够更好地刻画体育的动作类别,常采用傅里叶变换获得体育动作轮廓特征,特征数量越多,越不利于体育动作的分类和识别,需要对轮廓特征进行降维处理,选择一些重要特征进行体育动作识别建模[8]。体育动作识别的分类器主要采用神经网络设计,尤其BP神经网络的分类性能最优,应用最广泛[9]。在体育动作分类过程中,BP神经网络的初始阈值和连接权值影响识别率,当前主要根据经验设置初始阈值和连接,难以获得最优BP神经网络结构。
为了获得更加理想的体育动作识别结果,提出粒子群优化神经网络的体育动作识别模型(PSO?BPNN),并通过具体实验测试体育动作识别结果的优劣。
1 PSO?BPNN的体育动作识别模型
1.1 工作思路
PSO?BPNN的体育动作识别思路为:通过傅里叶变换获得体育动作的特征,采用核主成分分析(KPCA)选择重要特征;然后采用粒子群优化算法选择BP神经网络的初始阈值和连接权值,并对选择重要特征进行学习,建立体育动作识别的分类器,具体如图1所示。
1.2 体育动作检测
在体育动作识别过程中,首先要检测出运动员的动作,结合运动员的动作特点,采用帧间差分法实现动作检测,并对检测结果进行膨胀、腐蚀轮廓强化等处理,具体如下:
1.5.2 粒子群优化算法
要获得性能优异的体育动作识别分类器,确定合理的BP神经网络的初始权值和阈值,采用粒子群优化(PSO)算法解决初始权值和阈值确定问题,以获得更优的体育动作识别效果。
(2) 采用KPCA对体育动作的原始特征进行处理,选择对识别结果有重要贡献的特征。
(3) 根据选择特征对体育动作训练集和测试样本进行简化。
(4) 将简化后的训练样本集输入到BP神经网络中进行学习,并通过粒子群优化算法确定BP神经网络的阈值和连接权值。
(5) 根据最优阈值和连接权值建立BP神经网络的体育动作识别分类器。
(6) 将简化后的测试样本集输入到已建立的体育动作识别分类器中进行测试,并输出识别结果。
2 实验结果与分析
为了检验PSO?BPNN的体育动作识别性能,在4核 2.75 GHz Intel CPU,8 GB RAM,Win7 OS的个人计算机上采用VC++编程实现识别模型。选择10个运动员,他们演示各种简单体育动作,共得到600个数据,随机选择400个数据构建训练集,其余数据构建测试集,基本动作如图3所示。对比体育动作识别模型为:KPCA选择特征,BPNN的初始阈值和连接值随机确定(KPCA?BPNN);全部原始体育动作特征,粒子群算法优化BPNN的初始阈值和连接值(BPNN),采用体育动作识别率和平均一个动作的识别时间(s)作为性能评价指标。
采用训练样本构建体育动作识别模型,然后采用测试样本进行测试,它们的识别率如图4所示,从图4可以得到如下结论:
(1) 相对于KPCA?BPNN,PSO?BPNN的体育动作识别率更高,有效降低了体育动作的误识率,这表明KPCA?BPNN采用随机方式确定BPNN的初始阈值和连接值,无法构建结构最优的BP神经网络,这样体育动作分类器没有达到最优,难以获得理想的体育动作识别结果,从而验证了PSO算法优化BP神经网络的有效性。
(2) 相对于BPNN,PSO?BPNN提高了体育动作的识别率,这表明体育动作原始特征中有一些重复特征和无用特征,它们会对体育分类器构建产生不利影响,这样体育动作的识别结果有待改善,而PSO?BPNN采用KPCA选择一些重要特征,同时解决了特征选择和分类器参数优化问题,使体育动作的识别结果更加可靠。
经常要进行体育视频动作的在线识别,因此采用测试实验分析体育动作的识别速度,PSO?BPNN与其他模型的体育动作平均识别时间如表1所示。从表1的体育动作平均识别时间可知,PSO?BPNN的体育动作平均识别时间要少于KPCA?BPNN以及BPNN,这是因为PSO?BPNN采用KPCA选择重要特征,降低了体育动作分类器的输入维数,加快了体育动作识别的建模速度,同时采用PSO算法确定BP神经网络的阈值和连接权值,加快了BP神经网络的收敛速度,提高了体育动作的识别效率,更好的满足了实际应用要求。
3 结 语
针对当前体育动作识别建模中的分类器参数优化问题,提出PSO?BPNN的体育动作识别模型,采用测试实验验证了其有效性,结果表明,PSO?BPNN找到了体育动作识别的重要特征子集,PSO算法可以确定BPNN的最佳阈值和连接权值,获得了比其他体育动作识别模型更高的识别率,执行时间缩短,加快了体育动作识别速度,可以为体育教学、训练提供有价值的参考信息。
参考文献
[1] 周巧云,于仕琪.运动体育动作分析[J].先进技术研究通报,2009,3(5):47?51.
[2] 阮涛涛,姚明海,瞿心昱,等.基于视觉的人体运动分析综述[J].计算机系统应用,2010,20(2):245?253.
[3] CHEN L, HOEY J, NUGENT C D, et al. Sensor?based activity recognition [J]. IEEE transactions on applications and reviews, 2012, 42(6): 790?808.
[4] 黎洪松,李达.人体运动分析研究的若干新进展[J].模式识别与人工智能,2009,22(1): 70?78.
[5] 苗雪兰.体育动作量化分析智能系统的设计与实现[J].体育科学,2000,20(3):85?87.
[6] 张毅,张烁,罗元,等.基于Kinect深度图像信息的手势轨迹识别及应用[J].计算机应用研究,2012,29(9):3547?3550.
[7] 曹雏清,李瑞峰,赵立军,等.基于深度图像技术的手势识别方法[J].计算机工程,2012,38(8):16?18.
[8] 刘寅,滕晓龙,刘重庆.复杂背景下基于傅里叶描述子的手势识别[J].计算机仿真,2005,22(12):158?161.
[9] 苗雪兰.基于模糊神经网络理论的体育动作模式识别方法[J].计算机工程与应用,2006(6):155?157.
[10] 王萧.基于KPCA的探地雷达自适应杂波抑制算法研究[J].现代电子技术,2014,37(11):31?33.
[11] 张玲,王玲,吴桐.基于改进的粒子群算法优化反向传播神经网络的热舒适度预测模型[J].计算机应用,2014,34(3):775?779.
手语是聋哑人使用的语言。它是由手形动作辅之以表情姿势而构成的比较稳定的表达系统,是一种靠动作/视觉进行交际的特殊语言。
人类交互往往声情并茂,除了采用自然语言(口语、书面语言)外,人体语言(表情、体势、手势)也是人类交互的基本方式之一。与人类交互相比,人机交互就呆板得多,因而研究人体语言理解,即人体语言的感知,及人体语言与自然语言的信息融合对于提高计算机的人类语言理解水平和加强人机接口的可实用性的极有意义的。手语是人体语言的一个非常重要的组成部分,它是包含信息量最多的一种人体语言,它与语言及书面语等自然语言的表达能力相同,因而人机交互方面,手语完全可以作为一种手段,而且具有很强的视觉效果,它生动、形象、直观。
手语的研究不仅有助于改善和提高聋哑人的生活学习和工作条件,为他们供更好的服务。同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。另外,手语的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此,手语的研究是一个非常有意义的课题。这里将结合国内外手语研究的相关方向,对手语的识别、手语的合成、手语的网络通信、手的运动约束这几方面作一下综述。
1 手语的识别
手语的识别不但具有深远的研究意义,而且具有广阔的实际应用前景,至少表现在以下几个方面:(1)能够使得聋哑人,尤其是使得文件程度比较低的聋哑人,使用手语和正常人交流;(2)从认知科学的角度,研究人的视觉语言理解的机制,提高计算机对人类语言的理解水平;(3)利用手势控制VR中的智能化;(4)机器人的示范学习;(5)虚拟现实系统中的多模式接口等。
从手语输入设备来看,手语识别系统主要分为基于数据手套的识别和基于视觉(图像)的手语识别系统。基于数据手套的手语识别系统,是利用数据手套和位置跟踪测量手势在空间运动的轨迹和时序信息。这种方法的优点是系统的识别率高。缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器,并且输入设备比较昂贵。利用数据手套等典型传感设备的方法,台湾大学的Liang等人利用单个VPL数据手套作为手语输入设备,可识别台湾手语课本中的250个基本词条,识别率为90.5%。CMU的Christopher Lee和Xu在1995年完成了一个操纵机器人的手势控制系统。Kadous用Power Gloves作为手语输入设备,识别有95个孤立词构成的词汇集,正确率为80%。基于视觉的手势识别是利用摄像机采集手势信息,并进行识别。该方法的优点是输入设备比较便宜,但识别率比较底,实时性较差,特别是很难用于大词汇量的手语录的识别。在基于视觉的方法方面,具有代表性的研究成果包括:1991年富士通实验室完成了对46个手语符号的识别工作。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入,可识别7种手势。Starner等在对美国手语中带有词性的40个词汇随机组成短句子识别率达到99.2%。Grobel和Assam从视频录像中是取特征,采用HMM技术识别262个孤立词,正确率为91.3%。此外,Vogler与Metaxas将两种方法结合用于美国手语识别,交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备,完成了53个孤立词的识别,识别率为89.9%。
从识别技术来看,以往手语识别系统主要采用基于人工神经网络(ANN)及基于隐Markov模型(HMM)等方法。神经网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能力不强,目前广泛用于静态手势的识别。著名的Fels的GloveTalk系统采用神经网络方法作为识别技术。对于分析区间内的手语信号,通常采取HMM方法进行模型化。HMM是众周知并广泛使用的统计方法,一般拓扑结构下的HMM具有非常强的描述手语信号的时空变化能力,在动态手势识别领域一直占有主导地址,如卡内基·梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采用HMM作为系统的识别技术。另外,Grobel与Assam利用HMM识别由戴有色手套的用户通过摄像机输入的262个孤立手语词,正确率为91.3%。然而正是由于HMM拓扑结构的一般性,导致这种模型在分析手语信号时过于复杂,使得HMM训练和识别计算量过大。尤其是在连续的HMM中,由于需要计算大量的状态概率密度,需要估计的参数个数较多,使得训练及识别的速度相对较慢。因而以往手语识别系统所采用的HMM一般为离散HMM。
在我国,哈尔滨工业大学的吴江琴、高文等给出了ANN与HMM的混合方法作为手语的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数。将ANN-HMM混合方法应用于有18个传感器的CyberGlove型号数据手套的中国手语识别系统中,孤立词识别率为90%,简单语句级识别率为92%。接下来高文等又选取Cyberglove型号数据手套作为手语输入设备,并采用了DGMM(dynamicGaussianmixturemodel)作为系统的识别技术,即利用一个随时间变化的具有M个分量的混合GaussianN-元混合密度来模型化手语信号,可识别中国手语字典中274个词条,识别率为98.2%。与基于HMM的识别系统比较,这种模型的识别精度与HMM模型的识别精度相当,其训练和识别速度比HMM的训练与识别速度有明显的改善。他们为了进一步提高识别速度,识别模块中选取了多层识别器,可识别中国手语字典中的274个词条,识别率为97.4%。与基于单个DGMM的识别系统比较,这种模型的识别精度与单个DGMM模型的识别精度基本相同,但其识别速度比单个DGMM的识别速度有明显的提高。2000年在国际上他们首次实现了5000词以上的连续中国手语识别系统。另外,清华大学祝远新、徐光等给出了一种基于视觉的动态孤立手势识别技术,借助于图像运动的变阶参数模型和鲁棒回归分析,提出一种基于运动分割的图像运动估计方法。基于图像运动参数,构造了两种表现变化模型分别作为手势的表现特征,利用最大最小优化算法来创建手势参考模板,并利用基于模板的分类技术进行识别。对12种手势的识别率超过90%。在进一步研究中,他们又给出了有关连续动态手势的识别,融合手势运动信息和皮肤颜色信息,进行复杂背景下的手势分割;通过结合手势的时序信息、运动表现及形状表现,提出动态手势的时空表现模型,并提出基于颜色、运行以及形状等多模式信息的分层融合策略抽取时空表观模型的参数。最后,提出动态时空规整算法用于手势识别。对12种手势,平均识别率高达97%。
尽管已经实现了一些手语识别系统,但中国手语识别仍然面临许多挑占性课题,如手势不变特征的提取、手势之间的过度模型、手语识别的最小识别基于、自动分割识别基元、词汇量可扩展的识别方法、手语识别的辅助信息、非特定人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法等。
2 手语的合成
手语的合成是使聋哑人理解正常语言表达的最有效手段,在手语合成中涉及以下几个方面的问题:本文输入部分、文本切分部分、文本的分析与手语码转换、手语库的建立与基于手语词的手语合成和手语的显示。
文本输入部分的功能是编辑输入汉语句子。文本的切分将句子分成词,标点符合单独成词。系统的分词过程首先采用最大匹配发切分,然后利用第一步分词结果通过查找词条的歧义标志位调用词规则,进而进行歧义校正。文本分析与手语码转换是手语合成的重要部分。虽然中国手语是参考汉语制定的,但是两种语言的差别主要体现在四个方面:语言表达形态、基本词汇、句子结构和构词方法。在语言表达形态上:汉语是靠语音/听觉交际的有声语言。中国手语是一种靠动作/视觉交际的可视化语言。在基本词汇上:汉语的词汇大约有近五万多个字组成,总的词汇量可达十万多个。中国手语的词汇仅由3330个手势语组成。中国手语的手势词语与汉语的词语不完全存在一一对应的关系。在句子的语法结构上:手语句子与汉语句子的词序有所不同,此外还省略了日常语言的某些词如量词。因此从汉语转换到中国手语,主要解决的基本词汇上的差别,同时考虑部分词汇的差别。手语词库记录了每个手语词的手语运动信息,是手语合成的重要基础。建立手语词库不仅工作量大,而且其质量也直接影响合成手语的结果。目前建立手语词库的方法有两种:运动跟踪方法和手工编辑方法。也有人综合使用这两种方式。运动跟踪的方法是对腕关节及各手指关节的运动由数据手套获取,肩关节与肘关节的运动由位置跟踪传感器获取。而手工的方法是通过手工实验来获取手势的参数。手语是一种可视语言,合成的手语只有显示出来,观察者才能“读”取手语的信息与意义。手语的合成与显示的实现的方法是:在VRML中有一部分是专门用于描述三维人体模型H-Anim标准,根据此标准对虚拟人的定义,一个虚人有47关节96个自由度,只要确定这96个自由度的角度值,应用运动学的方法和计算机图形学的方法,就可以计算出虚拟人每个肢体的位置和方向,由此确定虚拟人的一个姿态。一个手语运动是一个人体手势的序列,按照预定的时间间隔连续显示一个手语运动中的每一个手势,既可以生成对应的手语运动。
3 手语的网络通讯
当今,网络通讯已经成为一种重要的通讯手段。研究哑语通讯,使聋哑人更好地融入网络社会,感受科技的进步,更好地为他们服务并且方便了他们的生活。而手语作为一种动作语言,从广义上讲,它的应用不仅仅局限于聋哑人之间,聋哑人与非聋哑人之间,以及异语种间健常人的交流都可能应用到动作语言。从这个意义上,研究哑语的表达与通讯,具有更加广泛的社会意义和实际应用前景。
更实现手语的网络通讯,必须采用一种恰当的技术,它既能完成手语图像动画表示,它既能完成手语图像的三维动画表示,产生的数据、文件应该尽可能地短小,且便于压缩,以利于网络传输,提高网络传输速度,避免网络拥塞,实现实时反应。可以使用三维动画技术来实现手语动画,但一般的三维动画技术形成的图像虽然可能满足生动逼真的要求,却不适合网络应用。因为它们用于图像和动画的文件格式是基于像素的,大小和行为都是固定的,为了得到特体的三维印象,至少需要两幅图解,这使传输量巨大且不能实现交互。同时,基于HTTP、HTML标准的WWW只能表示和传递二维信息,不能满足对三维环境和三维显像具有特定要求的应用需求。鉴于这种应用的特殊要求,提出采用VRML技术。VRML(Virtual Reality Modeling Language)是一种可以在WWW上操作的三维图形可视化工具,VRML 2.0于1996年8月,它能够灵活有效的方式,将二维、三维图形和动画、影片、声响和音乐等多种效果调和在一起,形成一个综合性的单一媒体,在环球网上创建动态世界。VRML本身不是一种传统的编程语言,它是一种建模语言,有它自己的文件格式,人们可以用它描述三维场景。它不但能满足图像质量的要求,而且存储和传输的只是物理的三维坐标,图像本身是在本地生成的,这就大大减少了网络传输量,也便于进行交互操作。同时,使用VRML技术生成的文件格式是ASCII码,能被有效地压缩,这就进一步减轻了网络压力,提高了传输效率,能够实现手语图像在网络上高速传输。
另外,日本北海道大学的青木由直教授是研究手语通讯的倡导者,他通过建立一个不同语言的手语翻译字典在Internet实现了日语和韩语的手语的聊天系统,进一步又研究了日本与中国的手语变换,手语手成的二维及三维动画,以及带有面部表情和嘴唇形状的日语和韩语的手语聊天系统等。
4 手的运动约束
人手的组成是一个非常复杂的结构。手是由骨头,连接骨头的韧带,作为拉力动力服务的肌肉,运动时连接肌肉与骨头的腱,以及覆盖着保护的软组织和皮肤。骨头通过关节连接起来并且不能改变大小,肌肉产生扭矩和关节通过拉力运动都存在一块或更多的肌肉群为其服务。因此,手的运动极其复杂的。由于真实手的生理特点,手的运动受到一些限制和约束。分析手的运动约束,就可以更好研究虚拟三维人手的运动。这样一来就可以在有关手的动画片中避免一些不真实的动作,使其更加拟人化。
关键词:计算机工程;视觉领域;深度学习技术
引言
计算机视觉简言之即是依靠电子设备成像来代替生物视觉系统,随后依靠提前写好的程序对获取的图像信息实施处理。该技术的短期应用目的在于完成相对简单的智能视觉工作,而深度学习技术在计算机视觉领域的应用,在很大程度上丰富了其功能,提高了识别效率,让其能够在更多行业发挥出自身价值。
1计算机视觉领域的深度学习技术
1.1图像分类中的深度学习技术
基于深度学习技术,卷积神经网络得到了进一步的发展,其应用范围也更为宽泛,例如说在图像分类中的运用。图像分析需要对图像实施扫描分析,随后对其具体类别予以划分,更加注重其整体语义。目前相对普遍进行图像分类的数据集为ImageNet,其中囊括了非常丰富的内容,存储了近1500万个图像的URL并将图像划分为数万余个类型。ImageNet每年组织开展的大规模视觉识别挑战赛(ILSVRC)中,图像分类算法与技术也不断创新,图像分类的准确性也持续提升。ImageNet数据集表现出规模大、类型多的突出特点,所以更加适用于迁移学习,即是把部分核心技术或结构拓展应用到各个领域,对于视觉领域的深度模型来说,能够把模型内的网络结构和参数直接共享到其他数据集,从而对数据实施微调。图像分类属于计算机视觉领域最为基础的环节,对于图像分类模型创建和数据分析处理经验也能够迁移应用到其他领域中。
1.2目标检测中的深度学习技术
目标检测相对于图像分类而言表现出更多的复杂性,主要任务是在囊括多种不同类型物体的图像内精确定位和识别某一物体,恰恰是出于这一目的,深度学习技术在目标检测中的应用更为复杂,要实现更加精准的效果也相对更难。近年来针对目标检测的算法日益更新,如优化后的R-CNN算法,是借助于卷积神经网络思想,对物体进行分类,提取物体特征。而SelectiveSearch算法的出现有了进一步的创新和突破,有效促进了检测准确性的提高,这也给通过卷积神经网络进行目标检测带来了更多可能性,随后的FastR-CNN算法极大地促进了目标检测效率的提升,该算法对提取候选区的问题予以优化,大大减少了候选区提取和目标检测过程的时间。目标检测网络以FastR-CNN算法作为支撑,于输出位置设置滑动窗同时和候选区域网络实施连接,目标检测的关键在于卷积神经网络,依靠它把各个点的特征进行提取,再借助回归算法获得对应范围出现目标的概率[1]。
1.3人脸识别中的深度学习技术
人脸识别主要是借助相应算法对人脸特征实施提取,因为其建立的人脸模型表现出一定的不稳定性,因此模型建立往往也表现出一定的难度,相对于建立刚体模型而言更为困难。人脸识别通常来说涉及人脸检测定位以及特征提取两个方面,人脸检测定位是基于背景图像中将人脸目标分割出来,实施归一化处理,而人脸特征提取算法不变。前者存在的技术难点是人脸目标具有多样性以及背景图像具有复杂性,所以对背景情境实施合理假设并予以简化是十分关键的。与此同时,高维空间人脸模型的建立较为复杂,精确度估算难度较大,人脸特征提取的技术难度是因为人脸属于弹性模型,其难度超过刚体模型。一般来说,较为常见对人脸特征实施提取与识别的方法有几何特征法、特征脸算法以及弹性模型法,CNN算法和过去的特征提取算法比起来表现出更高的稳定性和适用性,同时能够有效抵抗外部干扰,促进人脸识别技术的推广应用。
2应用实例
2.1安防领域的应用
深度学习技术在计算机视觉领域中的应用可以为安防行业提供更佳的解决方案,比如说人脸识别技术的应用,很多大型企业如Facebook、腾讯、阿里巴巴等都将非常关注和重视。作为深度学习技术在计算机视觉领域应用的重要内容,人脸识别在安检以及反恐等领域中也能够发挥出很好的效果。与此同时,对行人角度的REID技术实施研究,依托于深度学习强化目标检测,对目标特征实施提取和刻画,能够为异常行为监控和跟踪带来支持[2]。
2.2无人驾驶领域的应用
对于无人驾驶领域来说,选择激光或雷达这类传感器的成本更高,基于深度学习的计算机视觉技术也能够提供新的解决方案。依靠摄像机对视频画面进行采集,对获取到的图像实施分析,提供类似于前车碰撞预警等功能。在这一过程中,计算机视觉技术可以实现对目标的检测识别、对目标车辆的跟踪分析、对车道线是否偏离进行检测等。基于深度学习技术的检测识别表现出更加强大的优势,现阶段深度学习芯片日益增多,对于无人驾驶技术的发展也带来了更加有力的支持。
2.3智能家居领域的应用
过去的很多智能家居产品一般都是依靠智能手机蓝牙或者WiFi等途径来实现对家居产品的控制,这一方案即便能够做到家居智能化,但其水平依旧有待提高。基于深度学习技术,能够有效促进智能家居行业的更新发展,除开语言、语音识别之外,还能够利用计算机视觉技术实现人际交流与互动,比如说手势识别控制。2.4教育领域和图片搜索领域的应用基于深度学习的计算机视觉技术也能够在智慧教育中得以普及应用,如近年来很多新的拍照解题App,使用者只需要利用手机相机拍照上传即可获得相关题目的分析解答,促进学习者学习效率的提升。此时视觉技术包括了对文字的检测与识别,另外针对个人简历识别、文档识别等方面也能够进行拓展应用。同时计算机视觉技术还可以在图片搜索领域中得以应用,使用者通过拍摄上传相应的图片,即可从数据库中找出与原图相似的图片,深度学习属于一种非常高效的技术手段,能够提供更加快速高效的图像检测功能,结合图像搜索引擎,为用户带来更加便捷的服务[3-5]。
2.5医疗影像数据中的应用
医学影像直接关系到对患者疾病诊断的准确性,对于放射科的医务人员来说,依靠医学影像能够促进诊断效率的提升。现阶段国内外诸多医学专家队伍,在心血管、肿瘤、神经内科以及五官科等都建立了精准深度学习模型,极大地推动医疗水平的提升,为广大患者带来了更加便捷和高效的医疗服务。基于深度学习技术的计算机视觉在医疗影像数据中的应用主要集中在如下几个方面:(1)能够提供临床诊断辅助等医疗服务;(2)依靠数据分析技术,能够在很大程度上促进医疗机构经营管理水平的提升;(3)在医学影像中的应用,能够让医务工作者更加直观便捷地获取患者影像;(4)深度学习技术能够为医疗大数据的可视化带来便利;(5)在药企研发工作中的应用,可以处理好过去一直以来药物研发周期长和成本居高不下的问题;(6)在健康管理领域中的应用,借助于可穿戴设备来对个人健康数据实施监测,进而对疾病风险予以提前预测。
关键词: 人体动作姿态识别; 人工智能; 隐马尔可夫模型; 动态贝叶斯网络; 模板匹配
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)01-0133-03
人体动作姿态识别是计算机视觉研究领域中最具挑战的研究方向,是当前的研究热点。对人体动作姿态进行自动识别将带来一种全新的交互方式,通过身体语言即人体的姿态和动作来传达用户的意思,如在机场、工厂等喧闹的环境下,采用手势、动作姿态识别等人机交互技术能够提供比语音识别更加准确的信息输入。总之,在智能监控、虚拟现实、感知用户接口以及基于内容的视频检索等领域,人体动作姿态的识别均具有广泛的应用前景。该文首先简单介绍了人体动作姿态的分类,然后对人体动作姿态识别的方法进行了分类介绍,并对每种识别方法的研究进展情况及其优缺点进行了重点介绍,最后阐述了人体动作姿态识别当前的研究难点问题以及未来的发展趋势,希望能对相关领域的研究人员有所裨益。
1 人体动作姿态的分类
人体的运动涉及很多部位,包括人整个身体的运动或某个部位的运动,如手部运动、腿部运动或者头部运动,甚至人的表情、手势等。这些运动分别具有自己不同的特点和不同的复杂度,所用的研究方法也都不同。而针对人体简单动作姿态的识别是当前研究的一个热点,也是本文讨论的重点。人体运动的识别可分为两类:姿态识别和动作过程识别。
姿态识别的对象是静态系统,主要是识别人体整体或者某一部位的姿势。根据识别对象的不同,可分为手形识别、体势识别、头部姿态识别等。
动作过程识别是识别人体运动的动态过程,比如人体的动作识别、步法识别以及手势识别等。
2 人体动作姿态识别的方法
人体动作姿态的识别方法可分为三类:基于统计的方法、基于模板的方法和基于语法的方法。具体如图1示。
2.1 基于统计的方法
基于统计的方法是动态识别系统中效果最好的方法,目前主要是隐马尔可夫模型(HMMs)和动态贝叶斯网络(DBN)两种方法。
2.1.1 隐马尔可夫模型
隐马尔可夫模型是目前应用最广的一种方法。HMMs由状态和观测两部分组成,是一种基于转移概率和传输概率的随机模型,系统当前所处状态的概率只与前一个时刻的状态有关,与其它历史状态条件无关。在HMMs的识别过程中,首先提取出特征向量序列,然后通过学习算法进行模型参数训练,最后对未知的运动序列进行识别分类。
Yamato等人[1]首次用HMMs进行人体动作姿态的识别,之后又出现了HMMs的各种改进模型并成为人体动作姿态识别的主流方法[2-4]。Brand等人[2]提出了耦合隐马尔可夫模型(CHMM),并对手语进行了识别。Nguyen[3]提出了分层隐马尔可夫模型(HHMMs),HHMMs具有多层隐马尔可夫模型的结构,能够清楚地表达出人体运动中的行为细节。Duong等人[4]提出了S-HSMM(Switching Hidden-semi Markov Model)模型,S-HSMM的识别性能高于HHMMs,但是算法复杂度较高。
上述各种隐马尔可夫模型有两个缺点:第一,由于HMMs只适合于描述单个运动物体的系统,随着运动物体数目的增加,系统的状态数目以及HMM模型中的状态转移矩阵和观测模型的参数都呈指数增长,极大地增加了系统的计算复杂度,这样,HMMs的应用范围就有很大的局限性;第二,HMMs模型无法进行信息的有效融合,由此导致参数误差的相互叠加,进而无法保证模型参数的精确度。
2.1.2 动态贝叶斯网络
动态贝叶斯网络(DBN)是近年发展起来的统计模型,能够学习变量间的概率依存关系及其随时间变化的规律,具有很好的可扩展性和可解释性,对于多信息融合推理、多物体动态系统识别非常有效,是人体动作姿态识别今后发展的方向。
在动态识别过程中,DBN可以针对具体问题设计出相应的网络结构,而且可以将各种信息进行融合推理,同时为了使信息的配置更加优化,还可以对各种不同信息根据其来源、置信度等设置不同的权重。因此不少学者已经开始了这个方向的研究,将其用于人体动作姿态的识别,并取得了一定的成就[5-6]。而且,也有部分学者将HMM和动态贝叶斯网络两者结合起来,高效地进行人体动作姿态的建模和识别[7-8]。
但是,目前动态贝叶斯网络在人体动作姿态识别中的应用并不是很多,也还不够深入,主要原因有:
1)动态贝叶斯网络主要应用于识别多个物体的动态系统,而这样的系统需要大量的特征参数,所以动态贝叶斯网络的方法计算量较大,复杂度较高。
2)对目前主流的简单环境中人体规范动作姿态的识别,HMMs等方法已经可以胜任,达到较好的效果。
2.2 基于模板的方法
基于模板的方法主要是模板匹配法、动态时空规整法和动态规划法。
模板匹配法的思想是首先对人体动作姿态进行训练建立模板库,然后将待识别的动作姿态与模板进行匹配,计算二者之间的相似度,如文献[9]。模板匹配法的优点是实现起来比较简单、计算复杂度较低,缺点是对噪声和动作姿态持续时间的变化比较敏感。
动态时空规整法是一种非线性时间规整方法,它是将待识别的人体动作姿态模板的时间轴非线性地映射到训练模板的时间轴上,从而能够使两者的距离最小,如文献[10]。动态时空规整法较好地解决了人体动作姿态在时间尺度上的不确定性。
在动态规划算法的识别过程中,待识别样本模板中的每个时刻特征可以与特征模板中的任意时刻特征进行匹配,二者都无须进行时间规整,但要求必须顺序进行,如文献[11]。动态规划算法的主要缺点是计算量会随着训练样本数目的增加而增加。
2.3 基于语法的方法
基于语法的方法主要是有限状态机 [12]以及上下文无关的文法 [13]等。当前已有不少学者开始了这个方面的研究,用自然语言对人体动作姿态进行描述是未来的发展趋势。
但是,对图像序列中的人体动作姿态进行描述是非常复杂的,而且对事件、行为、状态这些概念还存在着不同的理解,如何对场景内容进行充分有效的表达还是非常困难的。目前对人体动作姿态的描述还仅限于简单的语义解释,对复杂场景中人体动作姿态的语义描述工作还相当的艰巨。
3 难点与发展趋势
近年来,人体动作姿态的识别研究已经取得了非常重要的成果,展现出了良好的发展前景。但下述几个方面仍是今后研究的难点问题:
人体动作类别的限制。目前人体动作姿态识别的研究主要还是集中在简单的人体动作姿态上,如人的某些标准姿势和一些简单的动作行为,如走、跑、蹲、站等简单规范的动作,而且,识别的对象通常是针对单个人体的运动。所以,如何针对在复杂场景下的多个人之间的交互动作行为进行识别,是未来的一个发展趋势。
特征选择的困难。特征向量的选择非常关键,直接影响到所采用的识别方法以及识别性能。如果选取过多的特征,特征向量维数就会过大,相应地就会增加计算的复杂度,相反,如果选取的特征过少,又可能无法获取较高的识别准确率。因此必须在选取合适的特征和获取较高的识别准确率之间进行折中权衡。
机器学习的局限性。利用机器学习工具进行人体动作行为的识别取得了一定的进展,但仍然还处于初级阶段,在识别过程中对人体运动的模型需要增加约束条件来减少歧义性,而这些约束条件与一般的现实情形通常是不吻合的。而且,机器学习的方法要求广泛的训练,即每个动作姿态都需要经过大量的训练才能识别,因此,机器学习方法只能识别一些预先定义的动作集,没有学习新动作的能力。因此机器学习仍是人体动作行为识别的一个难点问题。
识别算法的性能评价。鲁棒性、实时性以及准确率是衡量一个算法性能的三个重要指标。在当前研究工作中,准确率是最受关注的,而另外两个指标关注较少,特别是算法的鲁棒性。但算法的鲁棒性和实时性是实际应用中必须考虑的问题,因此,在衡量一个算法的性能时,必须对这个三个方面进行综合考虑。因此,在考虑某个具体应用时,需要开发新技术既能提高识别的性能,同时又可以降低算法的计算复杂度。
4 结束语
人体动作姿态识别本质上是一个人工智能问题,在智能监控、虚拟现实以及感知用户接口等领域具有广泛的应用前景。该文简单介绍了人体动作姿态的分类和人体动作姿态识别的方法,并对各种识别方法的研究进展情况以及优缺点进行了详细介绍,最后对当前的研究难点和未来的发展趋势做了详细阐述,希望能对相关领域的研究人员有所裨益。
参考文献:
[1] Yamato J,Ohya J,Ishii K.Recognizing human action in time sequential images using Hidden Markov model [A].In Proc CVPR[C],IEEE,1992:379-385.
[2] Brand M,Oliver N, Pentland A. Coupled hidden markov models for complex action recognition [A].In Proc CVPR [C] .USA :IEEE Computer Society Press,1997:994-999.
[3] Nguyen N T,Phung D Q,Venkatesh S,et al. Learning and detecting activities from movement trajectories using the hierachical hidden Markov model [A]. In Proc CVPR[C]. San Diego: IEEE Computer Society Press,2005:955-960.
[4] Duong T V,Bui H H, Phung D Q, et al. Activity recognition and abnormality detection with the switching hidden semi-Markov model [A]. In Proc CVPR[C].San Diego: IEEE Computer Society Press,2005:838-845.
[5] Luo Y,Wu T D, Hwang J N. Object-based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks[J].CVIU,2003,92(2):196-216.
[6] Gong S,Xiang T.Recognition of group activities using dynamic probabilistic networks [A]. In Proc ICCV [C].Washington: IEEE Computer Society Press,2003:742-749.
[7]Oliver N, Horvitz E. A comparison of HMMs and dynamic Bayesian networks for recognizing office activities [J] . Lecture Notes in Artificial Intelligence, 2005: 199-209
[8] N. Robertson, I. Reid. Behaviour understanding in video: a combined method. In: Internatinal Conference on Computer Vision, 2005:15-21.
[9] 谢林海,刘相滨.基于不变矩特征和神经网络的步态识别[J].微计算机信息,2007,23(7-1):279-281.
[10] Bobick A F, Wilson A D. A state-based approach to the representation and recognition of gesture [J] .IEEE Trans PAMI,1997,19(12):1325-1337.
[11] Bobick A F, Andy Wilson. Using configuration states for the representation and recognition of gestures. MIT Media Lab Perceptual Computing Section Technical Report, No. 308, 1995.