首页 > 文章中心 > 图形图像实训总结

图形图像实训总结

图形图像实训总结

图形图像实训总结范文第1篇

关键词:深度学习算法;视频图像;文本区域定位;形态学去噪;字符识别

DoI:10.15938/j.jhust.2016.06.012

中图分类号:TP391.43

文献标志码:A

文章编号:1007-2683(2016)06-0061-06

0.引言

视频中的文字检测与识别是视频图像检测领域的一项重要研究内容.在复杂背景下,视频文本的准确定位与识别有利于进行视频图像检测,只有准确的视频文本区域的定位,才能提高OcR字符识别系统的文本识别准确率,进而提高基于内容的视频图像的正确检测的效率,对视频定位与检索有十分重要的应用价值,一般的文本定位方法主要包括:边缘特征定位法、笔画宽度定位法、纹理特征定位法、机器学习法等,本文采用2D-Gabor滤波器与深度学习算法相结合的方法,实现对复杂背景视频中文本区域的定位,并研究了基于形态学的视频图像去噪方法,再通过OCR系统实现字符的识别,以提高OCR系统字符识别的准确率。

1.深度学习视频文本区域定位与识别流程

本文将深度学习算法理论应用于视频文本区域定位与识别过程,设计了一种基于纹理特征的逐层增量深度学习算法.该算法的处理流程如图1所示.首先,将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;接着,将纹理特征作为训练样本,利用受限玻尔兹曼机(restricted bolt-zmann machine,RBM)逐层对纹理图像进行增量学习,在学习过程中,用标记样本作为监督数据进行网络微调,构成深度置信网络(deep belief network,DBN),并标记文本区域和背景区域的二值图像;之后,利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像,最后,再将图像进行二值化、灰度等后续处理,送入到OCR字符识别系统进行字符识别.

2.逐层增量深度学习视频文本定位算法

2.1视频图像纹理特征的提取

字符的纹理具有周期性,并且在一定的频率范围内能量相对集中,所以可以利用二维Gabor滤波器对视频图像在不同尺度和方向上进行滤波,Gabor滤波器理论最早由Daugman提出,能够很好地描述对应于空间频率(尺度)、空间位置及方向选择性的局部结构信息。

鉴于中文字符主要由横、撇、竖、捺4种基本笔画组成,所以Gabor滤波器要求能够在这4个方向上反映中文字符的笔画特征,并且要求能够保证对这4个方向纹理区域的频率分量均有很好的响应。Wang等研究了Gabor滤波器中心频率与汉字的笔画的关系,发现Gabor滤波器的中心频率与周期入成倒数关系,且周期入是笔画宽度η的一半,当笔画的方向与Gabor滤波器的方向处于正交时,Ga-bor滤波器输出最优,因此,可以通过笔画的宽度来确定Gabor滤波器的中心频率,本文中Gabor滤波器所选择的参数为低频中心频率U1,/sub>=0.2,高频中心频率U,sub>h0.4,方向数和尺度数分别为T=4,M=4。

图2(b)所示为图2(a)原视频图像在横、撇、竖、捺4个方向进行Gabor滤波后的结果.由图2(b)可知,Gabor滤器能够将文字纹理和背景纹理分离,并使文字在横、撇、竖、捺4个方向的纹理信息得到保持,同时背景区域的纹理被有效的抑制。

2.2深度学习算法基本原理

深度学习是机器学习研究领域中的一个新问题,其目的在于建立、模拟人脑进行分析学习的神经网络,深度学习算法是由深信度网络(depth be-lief network,DBN)上的一系列受限玻尔兹曼机(re-stricted bohzmann machine,RBM)的概率模型组成.深度学习算法一般描述过程如下:假设有一个系统s,它有n层,S1,S2....Sn设输入为I,输出为o,学习的一般过程表示为:I=S1=S2,…Sn=O,如果输出O等于输入I即输入I经过这个系统变化之后没有任何的信息损失或者损失很小,可以看作基本上保持不变,这意味着输入,经过每一层Si,都几乎没有信息的损失,即任何一层SI,都是原有信息(即输入i)的另外一种表示,深度学习算法的核心思路有:①无监督学习用于每一层网络的预训练;②每次用无监督学习只训练其中一层,将其训练结果作为其高一层的输入;③用自顶而下的监督算法去调整所有层。

2.3深度学习网络(DBN)的构建

本文采用的深度置信网络的深度学习算法,是通过一系列受限波尔兹曼机(RBM)的概率模型组成.Hinton和sejnowski等设计了一种能够用在机器学习中的随机循环网络一受限波尔兹曼机,它是一种如图3所示的两层无向图模型,包含可视层v和隐藏层h,同时限制同一层节点之间的连接,而不同的单元层之间有连接。

2.4网络训练与权值调整

DBN网络需要进行训练以获得最佳权值,通常DBN网络训练包括自底向上非监督学习和自顶向下的监督学习两个部分,其过程为先对纹理特征图像采用RBM进行逐层增量学习,应用最大似然估计法不断地调整网络中权值,使RBM达到能量平衡,再用监督数据,对整个DBN网络进行微调,

在非监督学习过程中,DBN网络中每一个状态值都对应一层的结点,计算的输入输出数据都是对应结点状态值为“1”的概率值,而Hn层的输入向量是每个文字区域的纹理样本,通过交替的吉布斯采雍螅作为DBN网络的输入.设深度学习网络结构包含n个隐藏层,每层的节点数分别是L1,L1,…,LN,纹理特征图像送入到DBN网络中的输入层Ho层,不断的调整Hn和H1,之间权值Wo,根据式(8)、(9)将调整得到的权值Wn与初始数据根据式(7)计算出一组新的概率送入H1层,作为H1层的输入数据.重复上述计算过程得到WS1,WS1,…,Wn-1最终得到DBN网络的初始权值Wi={Wo,w1,W2,…,Wn-1},DBN网络包含n+2层,即H0,H1,H2,…,Hn层和样本标签数据层,其中HSn作为输入层,其节点数为64,标签样本层为输出层,中间n层的节点数分别是L1,L2,LSn,…采用无标注的训练样本构建DBN网络,以HSo和H1之间的训练为例,HSn和Hn,层构成了一个RBM,HN与可见层移的节点数相同,H1,与隐藏层h的节点数相同,利用交替的吉布斯抽样来调整权值WSn,直到RBM收敛。

在非监督学习过程中,保存RBM调整得到的权值,并作为自顶向下的监督学习的初始权值,与监督学习过程一样,根据样本的标注,采用梯度下降法再次微调权值,这里,RBM网络和DBN网络采用同样的网络结构,都具有相同的输入层和隐藏层,包括每层的节点数目也都相同,只是DBN网络最后还有一个输出层.DBN网络训练过程如图4所示,

3.形态学视频图像去噪处理

通过深度置信网络法对文本区域准确定位后,再根据字符的特征,采用形态学处理方法实现对空洞区域和孤立点进行填充、去噪、腐蚀以及膨胀等操作,最后再将获得的标记二值图像映射到原图像,实现清晰背景的文本图像。

针对图像中存在的孤立点噪声问题,通过邻域背景区域形态学比较,修改标记二值图像中孤立点背景区域值,实现孤立点去噪处理,如在标记二值图像过程中,由于字符之间存在间隔和中文标点符号,经过DBN网络处理后,该区域易被判定为背景区域,此时需要根据形态学法进行背景填充,即将背景区域值“0”修改为文字区域值“1”,为消除视频图像中次要文本区域的定位,以达到对视频中主要文字信息的提取与识别,本文采用了基于形态学的图像腐蚀与膨胀方法。

选用原点位于中心的5×5对称结构元素作腐蚀和膨胀运算,由于腐蚀运算,在去除噪声点的同时,会对图像中文本区域的形状有影响,故在进行腐蚀运算,去除部分噪声点后,再进行膨胀运算以消除腐蚀运算之后对文本区域的影响。

经过DBN网络、形态学去噪处理以及图像映射后的效果如图5所示,由图5所示可见视频图像在经过训练的DBN网络处理后,可以有效定位出字符、文本区域信息,如图5(b)所示;而经过形态学处理后图像中的噪点和不连续点被有效去除,获得清晰的文本区域图像,如图5(c)所示。

4.OCR字符识别及结果分析

视频图像文本区域定位都是从最底层特征映射出相应的顶层特征,依次层层映射,直到得到最顶层的结果。

通过对DBN网络及经形态学处理后文本区域,进行二值化处理,去除与边界相连的区域,将文本域背景黑白反转,再送到OCR软件进行识别。图6所示为图5中视频帧图像中的一段文本区域的二值反转图像,图7为此二值反转图像经OCR识别后的结果。

将本文提出的逐层增量深度学习算法与神经网络、经典Kim方法以及SVM方法对文本区域的定位作对比.采用式(12)中的查全率(RR)、查准率(PR)以及系数F来综合评价这几种方法的使用效果。

其中:c为图像中正确检测到的文本区域个数;m为图像中检测到的文本区域总数;n为图像中实际存在的文本区域总数;F系数用来对各个算法性能进行综合排名,是将查全率和查准率这两个性能的指标线性合并而成。

4.1不同网络结构的比较

为研究不同DBN网络结构对算法性能的影响,故测试了不同DBN网络层数的性能,实验结果如表1所示,测试数据表明,随着网络层数的增加,DBN网络的正确率逐步提高,网络的逼近能力逐步增强,但是,随着网络层数的增加,网络的复杂度也会不断的增加,网络的泛化力会逐步降低,所以并不是网络层数越多越好,实验中,认为4-DBN网络能够满足文本区域的需求,因此后续实验选择4-DBN网络为基准。

4.2与其他方法的比较

通过选用100幅不同背景的视频帧图像、字体大小、字体颜色、单行或者多行等情况下,采用如上4种不同方法对文本区域进行定位和对比,测试结果如表2所示。

从表2的试验结果对比可以看出,DBN网络文字区域定位的效果要明显优于其它3种方法,其查全率和查准率均高于Kim和SVM法,并且其F系数也是最高的.针对表1中DBN网络正确定位的文本区域总数378个,总字符数为5059个,进行文本识别实验,经二值化和形态学去噪处理后再进行OCR识别,表2测试结果表明,DBN网络在文本定位方面与其他3种算法有着明显的优势.通过正确定位出文本区域,使对视频中的文本字符的正确识别率也明显提高,保障了后续文本识别的正确率.

图形图像实训总结范文第2篇

关键词:图形图像;核心能力;培养策略

中图分类号:G718.5 文献标志码:A 文章编号:1674-9324(2016)13-0234-02

近年来,随着我国高等职业教育的迅速发展,各高职院校之间的竞争也愈演愈烈。各院校为了在竞争中立于不败之地,花大力气进行专业建设、课程改革及教学改革,以提高教学质量,加强学生各方面能力的培养,增强学生的竞争力。而在众多的能力中专业核心能力是本专业的最关键能力,是高职院校间竞争的关键。因此,高职院校要办好图形图像专业突出专业特色,加强图形图像专业核心能力构建及其培养研究有着重要的意义。

一、问题的提出

随着经济的发展,各行各业对图形图像岗位的人才需求量大增,为了加强对区域经济服务,国内各高职院校根据市场需求相继开设了图形图像专业。但就目前调查来看,许多地方图形图像人才供与求之间出现了一种相互矛盾的现象:每年有大量的图形图像专业毕业生走出校门,而同时用人单位却由于对毕业生不满意而感到人才的紧缺。通过多项研究发现,学生缺乏一定的市场竞争力,在市场竞争中需要学生的多种能力,而在市场中取得竞争优势的能力往往只是所具备的专业能力中某项或某几项专业核心能力起决定性的作用。由于学生在校学习的时间有限,学生不可能在学校得到各方面的深入发展,获得各方面的能力。学生能否掌握专业核心能力,既是体现专业特色,又是学生适应工作岗位具备市场竞争力的优势所在。可见,高职院校图形图像专业学生要适应行业的发展需要,应具有什么能力,尤其是应具备什么样的专业核心能力需要进行论证与探究,同时如何培养学生具备这些能力就显得极其重要。

二、图形图像专业核心能力分析

专业核心能力是个人在某个专业中通过一定的时间,进行系统的专业知识学习和实践训练而形成的独特的不易被模仿的能力,它是个人在工作岗位上所具备的他人无法模仿,具有较强知识特征和持续优势的能力。专业核心能力是一个专业中最关键的能力,而专业核心能力的确定是根据市场需求、区域经济需要的职业岗位群分析才能确定的。

(一)图形图像专业的就业岗位群分析

通过对国内相关知名企业对专业人才需求、职业岗位和职业能力要求的专项调研结果显示,目前企业急需的人才主要是:平面设计与制作,室内装饰设计与制作、网页设计与制作、影视后期编辑。高职图形图像专业学生毕业后可在IT行业的公司、技术先进型的企业、国家政府机构、各类平面广告、影视公司等从事平面设计制作、三维设计制作、网页设计、网站管理、影视后期制作等工作。毕业生面对的职业岗位在平面设计制作方向有广告设计制作员、界面设计制作员、包装设计制作员、VI设计制作员以及网页设计与制作员,三维设计制作(室内外装饰装潢设计)方向有施工图制作绘图员、室内外效果图制作员以及影视制作方向的影视后期制作员等等。毕业生在工作岗位上可以通过不断的努力,有机会升为设计主管、项目经理、网页美工师以及平面设计师等。

(二)图形图像专业核心能力

在图形图像职业岗位群中,通过比较分析得出各工作岗位所需的职业能力既有相同相似能力又有不同的能力,通过反复比较分析提炼,得出职业岗位群所需专业技能相同点与不同点,按照专业技能的重要程度进行排序,同时结合高职院校图形图像专业学生具体情况以及区域经济的发展对行业人员的需要,提炼出高职院校图形图像专业核心能力如下:

1.图形图像素材采集能力:根据不同的应用需求,通过手绘、计算机网站、客户资料提供等不同手段,获得需要加工的图形图像基本信息,在此基础上进行图形图像素材基本加工;

2.图形图像设计与制作能力:根据基本确定的图形图像素材,通过艺术设计、个性创意确定图形图像制作的基调,用一些专业的工具软件,展现图形图像制作后的成果,同时进行作品输出。

3.展示能力:能通过计算机网站及网页设计制作展示作品,展现自我。

三、高职图形图像专业核心能力培养中存在问题

(一)人才培养目标不明确,课程结构不合理

高等职业教育不等同于高等教育,它具有一定的特点,高职院校图形图像专业在人才培养模式上盲目模仿本科院校,导致培养目标不明确,培养出的人才不具有特色,应用能力偏弱。在专业课程体系中,开设了过多的专业课程,导致学生的学习泛而不精。在专业课程教学过程中以软件操作为主,不注重学生的专业核心能力与职业素养的培养,使得学生不具备职业岗位中所需职业能力,从而无法在工作中胜任实际的工作岗位。

(二)师资队伍薄弱

目前高职院校图形图像专业的大部分专业教师都是从来计算机应用技术专业转型而来,不具备专业所需的文化创意设计能力;同时专业教师缺乏企业工作经历,没有企业工作经验,在授课过程中不能将课程内容与岗位职能能力要求进行有效的结合,导致课程内容与实际工作需求有一定的脱节。

(三)实习实训条件不足

由于图形图像软件更新换代较快,软件版本的升级意味着对教学环境和教学备的要求较高,由于专业建设资金不足,导致教学设备以及软件更新跟不上时代的步伐,校内实训基地建设相对滞后。同时,由于行业特点,大部分图形图像相关的企业规模较小,合作的校外实训基地不稳定,合作水平不够深入,对学生后期的顶岗实习造成一定的影响。

四、高职图形图像专业核心能力培养策略

随着高等职业教育快速发展,就业压力的日益增大,高职毕业生的就业问题已成为目前一个比较突出问题。学生就业竞争的着力点是其具备的能力,而能力构成中起决定性作用的是专业核心能力,如何让学生在校获得过硬专业核心能力,在人才市场上突出竞争优势和在工作实践中具有持续竞争能力,是摆在高职院校面前一项极其重要的任务。

(一)优化人才培养方案,重构课程体系

根据市场人才需求及学科发展动向,形成以“实践应用型”为导向的高职图形图像专业人才培养方案,构建工学结合的课程体系。通过企业调研,走访毕业生,行业专业家座谈等形式,对就业核心岗位进行分析,归纳专业职业岗位典型工作任务,对图形图像制作工作流程进行分析,概括总结图形图像制作专业在实际工作过程中所需的专业技能,即平面设计能力、网页设计与制作能力、室内外装饰设计能力,以此作为转化专业学习领域并构建专业课程体系的依据,围绕专业的三大核心能力将知识进行重组、序化并转化为支撑职业能力的课程体系。

(二)进行课程改革

为了达到专业人才培养目标根据人才培养目标,对专业课程制定课程标准,在课程标准中根据职业能力需求确定课程内容及要达到目标。专业核心课程标准的制定,必须与企业需求、行业标准相结合,课程内容体现出工学结合的特点。在实际授课中,打破传统的讲授模式,以企业实际项目为载体,将知识和技能进行整合,并在教学过程中依照企业的项目开发模式组织教学,使学生真正实现“在学中做、在做中学”。同时,为了达到课程目标,需要做好课程考核方式。摒弃传统的笔试考核形式,按照实际需要进行多元化的考核。

(三)加强师资队伍建

教师是教学的根本,建设一支师德高尚、教育观念新、改革意识强、具有较高教学水平和较强实践能力、专兼结合的教师队伍,是培养高素质实用性人才的关键环节。要加强师资队伍建设,可以让专业教师加强企业锻炼,定期进行业务进修、学术交流、教学理念教学方法培训;在学校条件允许的情况下,合理引进企业一线优秀专业人才。

(四)加强校企合作

为解决教学条件滞后,实习实训条件不足的情况,加强校企合作。高职院校可与当地的图文印刷以及设计类企业联系,与企业合作在校内设立经营实体店,这样也即可满足企业的营利目的,也解决了校内专业实训基地不足的情况。专业可根据人才培养方案需求与企业的需要,与企业共同设计开发相应的实训项目,如平面广告设计与制作实训、网页设计与制作实训以及室内外装饰装潢设计实训等等。课堂可以由企业中设计师与校内教师共同参与指导,即可以为企业带来了一定的经济效益,也让学生在实践中得到锻炼,提高就业竞争能力,实现“双赢”。

加强高职院校图形图像专业核心能力的培养,是缩短企业人才的需要和学校人才培养之间距离的有效途径,是提高毕业生就业竞争力的有效途径,是高职院校竞争的软实力的具体体现。高职图形图像专业在教育教学实施过程中,以服务为宗旨,就业为导向,围绕专业核心能力,进行教学改革、加强师资建设以及加强校企合作等等,把专业教育中突出对学生专业核心能力的培养落到实处。

参考文献:

[1]刘敏.旅游管理专业课程体系设计研究[D].辽宁师范大学硕士论文,2009,(5).

[2]杨哲,张洪江,宋权华.数字媒体技术专业核心能力构建及其人才培养研究[J].中国医学教育技术,2013,(3).

[3]焦万鹏,沈鹤.图形图像制作专业人才培养模式创新与实践[J].辽宁高职学报,2010,(7).

[4]房强.高职图形图像制作专业人才培养的创新与实践[J].统计与管理,2013,(2).

图形图像实训总结范文第3篇

关键词:自我概念;历史;潜能

“背了总是忘!”“花的时间很长,用的精力很多,可历史成绩就是上不去。”“我的历史成绩也就这样了”……我们经常会听到学生谈论学习历史的上述感受,也能感受到他们学习历史的低落情绪、对学习历史能力的怀疑和对学习历史信心的动摇。但我们应察觉到:是消极的自我概念在不自觉地压抑了学生的历史学习潜能。我们更应明确责任:通过一些训练方法,培养学生形成积极的自我概念,激发学生不断开发自身学习历史的潜能,提升历史学力,使心理与学业齐头并进。

一、自我概念

自我概念,又称自我形象,是指个体对自我的稳定的总体认知和评价,回答我是个什么人的问题。包括潜力、认知能力、情感特征、行为和精神面貌等。自我概念有积极和消极之分,积极自我概念包括健康的自尊、自信和自立自强精神,能看到自己在世界中的价值和自己的长处,不怕困难和挫折,自信“我行,我能行!”消极的自我概念则相反,缺乏健康的自尊、自信,自认为“我不行,我本来就不行!”

二、培养积极自我概念的必要性

心理学认为,“暗示能够使人们的心理或行为发生改变。”“每个人的行为都是由潜意识决定的。……在每个人身上,都储藏着无尽的潜意识力量,它可以战胜一切问题。”因此,每个人都可以遵循心理学规律,通过积极的自我心理暗示开发本就储存在自身的潜意识的无限潜能。

自我概念是青少年“自我意识”发展的必然结果。自我概念是学生学习成败的关键,对学生的心理发展也至关重要。自我概念根植于潜意识之中,在不知不觉中发挥作用,而自我概念一旦形成,人的一切行动、认知、情感和才能都受其影响,尤其影响自我效能感(对自己能否成功完成学习活动能力的推测和判断)、自我评价(我这个人怎么样)与自我理想(我应该成为什么样的人)。

三、形成积极自我概念的训练方法

教师可以在教学过程中协助学生自主进行常规的积极自我概念训练。

1.形象转换法

形象转换法:当消极的图像出现时,大脑自动触发一种积极的心理图像出现,从而清除掉消极的心理图像,建立起积极的心理图像。其实质就是在消极的心理图像与积极的心理图像之间形成一个固定的触发器,只要消极的心理图像出现,就立即自动触发积极的心理图像,从而被积极的心理图像所取代。以改变学生不喜欢历史为例,教师可以引导学生做以下训练:

首先,学生在脑海中出现自己所不喜欢的看历史书或上历史课的心理图像,图像清晰鲜明,好像正在进行。

其次,学生的脑海中再快速出现一种有较强吸引力的、自己喜欢的、积极的图像,如学生喜欢学语文或其它知识的图像,图像又大又近,逐渐明亮,学习它们充满乐趣,满怀自信自尊。

再次,把两种图像连接起来。学习历史也像学习语文或其它知识那样,充满乐趣,满怀自信自尊,这个图像又大又明亮,色彩斑斓,原来学习历史没意思的心理图像就很快地支离破碎、被消除掉。

最后,马上利用形象转换法训练产生的良好心理状态去学习历史,满怀兴趣,集中注意力,牢固系统地掌握历史知识。

为了确保训练效果,训练时需要注意的事项:

(1)抓住关键:快速和反复。“快速”是指在消极图像出现后积极形象迅速出现,并取代消极图像快速占据大脑。“反复”是指反复训练五六遍,直到消极图像能自动触发积极图像,产生积极的心理状态,并取而代之。

(2)坚持长期训练。每当上历史课、做历史作业或复习时,都先做改变历史没兴趣的训练,当心理状态调适到积极状态时再开始学习历史,直至对历史确实充满兴趣,学习成绩优良而且稳定时,才可结束训练。

2.成功形象角色换位

“成功形象角色换位”,是一种冲破心理桎梏,忘掉过去的“旧我”,把潜意识换上新的成功形象,融入新的自尊自信角色。学生可以先把自己的成功形象定位为“本班”(“本县”、“本市”“本省”)的历史学科状元或心仪学校的状元等。接着可以选择适合自己的方式不断强化自己的成功形象,比如:

(1)早上醒来的一刹那间,屏息,全身心的集中注意力,心中默念“我的历史成绩最棒”、“我是历史冠军”,让潜意识进入自己成功的形象中。

(2)每次听历史课时,先闭目暗示自己进入成功角色的听课状态:“我的历史天赋最佳”、“我的历史高考成绩第一”,想象自己就是成功角色,在高效率、全神贯注的听课。

(3)每次历史考试前,先彻底放松身心,然后闭目暗示自我:“我的大脑特别清醒”、“我这次肯定能超水平发挥”“我就是历史学科的单科状元” ……这样逐步诱导自己进入像自己设计的成功成功角色一样自信又放松的超水平的应考角色中。

(4)把自己的成功形象用一句话概括出来,每天写20遍,边写边大声念,同时在脑海中浮现自己的成功的形象。

(5)每天照镜子时,面带自信的微笑,凝视镜中自己的双眼,鼓励自己:“你的历史成绩最棒”、“你的梦想一定会实现”……每次自我成功暗示时间不超过30秒。

在“成功形象角色换位”中,学生要把自己历史学习的成功形象反复暗示潜意识,潜意识中的历史学习智能慢慢就被唤醒激发起来,学生历史学习状态会被优化。

美国著名心理学家马克斯威尔.马尔兹曾有句名言:“你想你是什么,你就是什么;你想你能做什么,你就能做什么。”历史教师应与时俱进,依据心理学原理,结合历史学科特点,采用不同的训练,帮助学生形成积极的历史学习的自我概念,让学生“体验”、“发现”并运用自身的潜能,在提升历史学力的同时培养学生健康向上的成功型人格,为人生的成功奠定最坚实的基础。

参考文献:

[1] 华人心理网《激发内在潜能的策略》 刘善尊教授

[2]《心理暗示力》【法】埃米尔.库埃著 方舟编译 中国华侨出版社,2013.7第8页

图形图像实训总结范文第4篇

Abstract: Micro-expressions are fleeting true expressions. During negotiations, the real acceptance and inner bottom lines of both sides are often hidden, but this is deliberately suppressed and hidden, and it will be exposed to micro-expressions. Firstly, get interception photos from negotiators' videos. Then after the HSV color space conversion and the exclusion of the environmental background of micro-expressions, using improved SSD algorithm, combined with ratio test method, to recognize the images. After designed and practiced the simulation of negotiation situations, using the computer can recognize micro-expressions accurately and rapidly, with the help of micro-expression recognition training, we will achieve better results in negotiations.

关键词:微表情;识别;SSD算法;色彩空间

Key words: micro-expressions;recognition;SSD algorithm;color space

中图分类号:H026.3 文献标识码:A 文章编号:1006-4311(2016)33-0186-03

0 引言

微表情是人类试图压抑或隐藏真实情感时泄露的非常短暂的、不能自主控制的面部表情。在谈判过程中通过微表情来了解谈判对方对谈判结果的真实预期与心理底线,无疑能给己方带来更好的谈判结果。微表情持续时间一般不超过200ms,即使是有意注意,一般也难以尽窥其貌。

本文先借用OpenCV读取视频中的每一帧,然后用计算机编程来获取对手微表情泄露的信息,最后给实验参与对象进行培训。

1 微表情的计算机编程获取及识别

1.1 谈判视频的逐帧图像截取

开源计算机视觉库(Open Source Computer Vision Library,OpenCV)是一个基于(开源)发行的跨平台计算机视觉库,它由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。

本文所用的实验视频是从罗伯特・斯文克导演的《Telling Lies》中摘取一段谈判视频,视频部分截图见图1、图2,该剧的灵感来源于美国行为学专家Paul Ekman博士的真实研究,卡尔・莱特曼(主演)通过对人的面部表情和身体动作的观察,来探测人们是否在撒谎来还原事件真相。

本文所用的实验视频OpenCV可以直接读取,无需安装特殊解码器。用OpenCV打开实验视频,取得其帧速率,根据帧速率计算帧之间的等待时间,取得视频文件的总帧数,每帧分别输出为一个单独的图像文件,按照截取的每帧的时间顺序编号。

视频的帧速率是30帧/秒,运用OpenCV逐帧截取之后共得到图片1662张,分析这些图片,发现其中很多图片没有太大价值,为提高分析效率,并按照微表情的定义,微表情持续时间约为40ms到200ms。故延长所截取的每帧的间隔时间后再次截取,实验以200ms为单位,共截得277张图片。

1.2 表情与背景的分离――跟踪实验视频中的特征点

在视频跟踪过程中,首先要对起始帧检测特征点,然后依次对后面的帧进行跟踪。本研究处理的实验视频中人脸在录像屏幕的部位大致相同,故只需先用形状描述子定位起始帧中人脸所在区域,再在其后的帧中以该区域为圆心开始搜索即可。

本文采用均值平移算法来查找目标。在已知目标大概位置的情况下,就可用概率分布图找到物体的准确位置。而某个指定目标出现在特定位置的概率可由反向投影直方图反映,概率最大的位置即为该目标最可能出现的位置。均值平移算法就是在目标出现概率最大的位置周围反复移动,它通过迭代来定位概率函数局部峰值,从而找到该目标的实现方法。定位则是通过寻找预定义窗口内部数据点的重心或加权平均值。OpenCV在迭代次数达到最大值或窗口中心的偏移值小于一定阈值时判定该位置收敛到了一个稳定点。这种方法的结果很大程度上取决于初始帧中目标位置概率分布图。

由于人的肤色与周围环境颜色差距较大,故为了突出人脸的特征,采用HSV色彩空间的色调分量。HSV是表述颜色的直观特性的一种色彩空间。其颜色参数有:色调(Hue)用角度度量,取值范围为0°~360°;饱和度(Saturation)取值范围为0.0~1.0;亮度(Value)取值范围为0(黑色) ~255(白色)。

首先将起始帧的图像转换成HSV色彩空间,用CV_BRG2HSV即可得到色调通道分量。该分量是取值在0°~180°的8位分量。再用cv::split函数将原先为三通道的HSV图像分割为三个单通道图像,从而得到色调图像。色调图像是矩向量的第一位入口,作为矩向量的第二个入口,饱和度的影响应要考虑。由于低饱和度颜色的B、G和R分量几乎相等,所以低饱和度颜色的色调信息不稳定不可靠。故实际处理中要忽视饱和度低于一定阈值的像素。

从转换后的HSV图像可以看出面部肤色与周边环境色调和饱和度大为不同,且面部色调完全相同,因此可以将HSV图像划分为皮肤和非皮肤部分,从而去除背景,得到右侧图像。对于起始帧,可用形状描述子圈定面部区域位置。由于视频录制过程中人物处于屏幕位置变动范围有限,故没有选取实际上相邻的两张图,而是跳过两张,以期结果更为显著。图3a)中红色边界框为脸部图像形状描述子,图3b)中红色边界框为图3a)位置框,蓝色边界框是图3b)中脸部图像形状描述子。

这种高度依赖前一帧图像的算法可以提高表情识别的准确率,因为短时间内表情的变化基本是连续的,过多的微表情不符合实际。然而若起始帧中人脸定位有问题,后面的帧正确率将大受影响。同时,这种依赖前帧的算法必将随着帧数的不断增加而流失越来越多的像素点,从而能影响准确性。如果完全不依赖前帧,每张图片分别运算,无疑会大为增加算法复杂度和程序运算时间,效率得不到保证。故在尽可能保证程序运行效率和准确率的情况下,建议结合视频长度、视频各部分重要程度等因素,选取重点部分适当精析,其余部分选择合适的帧间隔,分段检测。

1.3 表情的识别――检测和匹配兴趣点

在将人脸和周边环境分离之后,用改进的SSD算法对面部表情进行识别。将面部图像按网格分割,检测每个网格内部关键点,通过比较块内的强度值,来比较各个图像块之间的相似度。先将面部图像分割成3*3的图像,在每个3*3的图像内部再进行3*3分割,共得到81个最小单位网格,每个最小单位网格仅与相对大一些的网格进行匹配,从而简化算法复杂度,如图4。假设每个最小单位网格的尺寸是W×H,那么结果矩阵的尺寸是(W-N+1)×(H-N+1)。

SSD算法通过逐像素得计算差值的平方和,用式(1)来衡量相似度:

不论使用何种算法,对于面部表情这样细微的匹配来说,其结果都会有一些错误匹配项。本文使用比率检验法排除一些错误项。为每个关键点找两个最佳匹配项,然后排除与第二个匹配项最接近的全部最佳匹配项。而针对图像中的人脸通常有一定角度旋转和尺寸大小不确定的问题,通过计算候选人脸图像块的偏转角度和面积,并以此调整单位网格,提高匹配的准确性。利用实验人脸图像区域和质心作为配准的原点,可以抑制目标图像噪声的干扰。

最终构建了基于肤色分割和网格匹配的微表情识别系统,并用该系统测试从实验视频提取的表情图像,试验用的参照标准数据库选用的是日本女性表情数据库JAFFE,该数据库中包含了213幅(每幅图像的分辨率:256像素×256像素)日本女性的脸相,每幅图像都有原始的表情定义。表情库中共有10个人,每个人有7种表情(中性脸、高兴、悲伤、惊奇、愤怒、厌恶、恐惧)。实验结果表明,本文采用的算法运行高效、运算简单、失误率较低,有实用价值。

实验视频截取的图片序列共277张,其中能明显检测出人脸图片的有234张,这其中识别结果:中性脸153张,高兴37张,悲伤7张,惊奇8张,愤怒14张,厌恶9张,恐惧7张。经过后期人工排查,由于实验视频开头几秒展示的是谈判环境,故不存在含有人脸的图片,此外,录制过程中存在镜头切换的现象,导致过程中有一些图片也不包含或人脸一闪而逝,极度模糊,能明显识别出含有表情的图片与检测结果几乎完全吻合。排查的结果为:中性脸约164张,所谓高兴的表情主要出现在视频最后双方成交时,包括过程中甲方识别乙方微表情时的高兴的表情,共约43张,悲伤出现5张,惊奇7张,愤怒出现6张,厌恶出现7张,恐惧3张主要是在甲方识别乙方表情是甲乙双方不自觉流露出的。总的失误率在可以接受的范围内,说明实验采用的算法简洁有效。统计结果如表1所示。

2 谈判情景模拟实验

2.1 实验组与对照组的设计

我们通过设计一谈判情景,由班级32同学组成竞争对手,实验共有16个谈判小组,每组2人,设为01,02,…,16组。

第一轮谈判采取随机抽签形式,两两模拟谈判过程,共8队谈判小组。不妨设首轮01组对阵02组,03组对阵04组……首轮中各组均不进行微表情识别培训。

第二轮任选两对仍然不培训,作为对照组,剩下六队任选两对,对两组谈判小组都进行微表情识别的培训,作为实验组A,最后四对每对任选一个谈判小组进行微表情识别陪训,其中两队抽取甲方,两队抽取乙方,分别作为作为实验组B1,实验组B2。第二轮微表情培训的内容为对手队上一轮中的视频,从而保证实用性和真实性。

2.2 能够达成协议的谈判条件范围

本实验模拟商务谈判为供销类别,即甲方出售货物,乙方买入货物。

2.2.1 甲方能接受的条件范围

①货物数量与售价如表2所示。

②拖欠货款不能超过成交额的一半且不能超过四个季度。

2.2.2 乙方能接受的条件范围

①需求量与成交价。

至少需要30000件,单价不超过4.8元,价格适宜的情况下可以适当多采购一些,但不能超过50000件。

②到货期不能超过一季度。

2.3 实验结果分析

2.3.1 第一轮谈判模拟结果

因为第一轮尚未进行微表情培训,故而各对的谈判结果都在一定范围内浮动,差别不大,也体现了实际情况的合理性。具体结果如表3所示。

2.3.2 第二轮实验谈判结果

实验结果表明未经过微表情培训的组对谈判结果差别不大,而单方面接受微表情培训的团队都取得了比较明显的优势,对于双方都接受了微表情培训的团队而言,谈判结果并无明显的优劣,与都未接受微表情培训相比更接近双方的心理底线。结果如表4所示。

3 总结

谈判学是一门典型的边缘学科。如何在白热化竞争的商战中捕捉对手的细微心理变化,从而掌握商战中的的主动权,一直是研究的热点和重点,有很强的实际意义和可操作性。基于此,项目从一个方兴未艾的学术理论――微表情分析法入手,意在给企业在复杂激烈的商战中保驾护航,帮助企业在激烈的市场竞争中取更有理想的结果。项目研究方法及验证方式比较简易,但项目的成果有较大的实用价值。

本文采用的算法比较简单,高效的同时不能避免表情识别有所误判;设置的谈判模拟实验相对现实而言有些精简,很多如厂商信誉、产品质量、合格率等因素未加考虑,实验参与对象也不是专业谈判人员,这些方面有待改进。

参考文献:

[1]梁静,颜文靖,吴奇,申寻兵,王d菁,傅小兰.微表情研究的进展与展望[J].中国科学基金,2013(02):75-78,82.

[2]吴奇,申寻兵,傅小兰.微表情研究及其应用[J].心理科学进展,2010(09):1359-1368.

[3]吴冉,任衍具.微表情的启动效应研究[J].应用心理学,2011(03):241-248.

[4]贺丽丽.视频序列中运动目标提取方法研究[D].西安电子科技大学,2014.

图形图像实训总结范文第5篇

Abstract: This paper presents an image retrieval model based on non-negative matrix factorization (Nonnegative Matrix Factorization.NMF) and multi-feature fusion. By extracting color and texture features of images for NMF decomposition, the base matrix of NMF and the coefficient matrices of samples are obtained. The two-dimensional principal component analysis (2 DPCA) idea is used for dimension reduction of coefficient matrix, and then the retrieval results are compared by using the method of feature weighting. This article uses the image library containing 500 character image for test, which uses the multiple characteristics of the image and 2DPCA idea, improving the precision of retrieval in the article, and the retrieval speed is superior to the decomposition of nonnegative matrices and the two-dimensional principal component analysis.

关键词:多特征融合;二维主成分分析;非负矩阵分解

Key words: multi-feature fusion;two-dimensional principal component analysis;non-negative matrix factorization

中图分类号:TP391.4 文献标识码:A 文章编号:1006-4311(2016)08-0228-04

0 引言

近年来非负矩阵分解(NMF)的方法被广泛地应用于图像检索[1]、图像融合[2]、人脸识别[3]等领域。1999年Lee和Seung在Nature上提出了非负矩阵分解算法理论。在矩阵中所有元素均为非负并且任意一行元素的和不为零的条件下,该算法可以对其进行非负分解,分解的结果中不出现负值。因此,每幅图像可看作是基图像的线性组合。本文对每一个降噪后的图像分别进行分解,降低分解矩阵的维度,提高运算效率。

基于非负矩阵分解算法属于一种传统算法,通过计算基矩阵(投影矩阵)和系数矩阵才能得到分析结果。但是运用维数较高的系数矩阵进行迭代求解,计算过程相当复杂,且计算量也非常大,耗时又耗力。鉴于非负矩阵分解的不足,本文提出了二维投影非负矩阵分解(2-dimensional projective non-negative matrix factorization,2DPNMF)[4]的图像检索算法,该算法打破非负矩阵分解的损失函数的计算框架,在二维主成分分析环节引入了非负性约束条件,提出了系数矩阵的计算环节,只需计算基矩阵即可完成特征提取,所以2DPNMF算法的计算分析过程用时更短,速度更快。

1 多特征融合

基于内容的图像检索是在提取图像中底层特征的基础上进行的。而图像的底层特征有很多,包括颜色特征[5]、纹理特征[6]、形状特征[7]等。图像的颜色特征即视觉特征,是最直观的图像识别因素,也是识别图像色彩的主要依据,有很强的鲁棒性;纹理特征图像检索中都会用到的一个底层特征,彩色纹理相当于局部区域中像素之间关系的一种度量,能够描述像素邻域灰度空间分布规律,或者图像的色彩及结构特点。本文提取颜色和纹理特征。

1.1 颜色特征提取

熵是度量影像纹理的随机性。当空间共生矩阵中所有值均相等时,它取得最大值;相反,如果共生矩阵中的值非常不均匀,其值较小。

在对纹理特征提取的过程中,我们对灰度共生矩阵的计算结果做简单的处理。最简单的方法取不同方向(0°、45°、90°、135°)的偏移参数,作其灰度共生矩阵,分别求出特征指标,然后对这些特征指标计算均值和方差。这种处理方法抑制了方向分量,使得到的纹理特征与方向无关。

利用以上提取的四种特征构建特征向量。颜色特征和纹理特征组成一个七维矩阵,利用非负矩阵分解进行构建系数矩阵。

2 二维投影非负矩阵分解

本文在传统的二维主成分分析(2DPCA)方法和非负矩阵分解(NMF)方法的基础上,进一步优化调整非负矩阵分解最小误差框架,提出二维投影非负矩阵分解(2DPNMF)算法,通过计算最优的投影矩阵(基矩阵)即可得到分析结果,不必再计算系数矩阵,这样既简化了迭代更新计算流程,又缩短了训练时间,大大提高了计算分析速度。

Zass等[8]提出了非负稀疏主成分分析(Non-negative sparse PCA, NSPCA)NSPCA 不再考虑非负矩阵分解算法的两类损失函数,只是把非负限制加在了主成分分析目标函数上,从而从根本上打破了非负矩阵分解框架。NSPCA先把每幅p×q大小的二维图像Ak按行(或列)拉伸为一个pq维的向Vk,V=[V1,V2,…,Vm]为全部训练样本的集合,大小为pq×m假设训练样本集包含100张64像素×64像素大小的训练图像,V的维数为4096×100。

3 实验与分析

本实验通过采用国际通用500副人物图像作为实验数据库。实验使用Matlab7.0软件在WindowXP,3.0GHz,内存2.0GB计算机上进行。实验从以下三个方面进行:

①在图像库中,在不同压缩维数和训练样本个数下,分别将NMF算法分和现有2DPNMF算法进行比较,目的是比较在不同压缩维数和训练样本个数下两种算法的检索效果。

②在图像库中,选定,分别在多特征训练样本分析中,将2DPNMF算法与一、二维算法的特征和检索效果进行对比。

③在图像库中,比较NMF(一维特征)、NMF(二维特征)、2DPNMF(一维特征)、2DPNMF(二维特征)四中方法的运行速度和准确率。

3.1 实验数据

图像库中包含了500副人物图像,每幅图像的分别率均为112像素*92像素,本案例的要求是将其处理为100像素*100像素。图1是其中的7副图像。

3.2 查准率随压缩维数的变化

通过设定不同维数和训练样本个数,对比分析2DPNMF算法与NMF传统算法的检索效果。选择以上七张图像作为训练样本,其余作为测试样本,压缩维数从1*100变化如图2所示。

根据图2所示各种算法随压缩维数以及训练样本特征的变化,总结出以下结论:

①虽然训练样本特征个数不同压缩维数不同,但是本文的算法与传统NMF算法相比,检索效果进一步优化,更具实效性。

②训练样本特征相同时,2DPNMF算法的查准率高于传统NMF算法。

③随着训练样本的增加,样本之间的特征信息越来越丰富,2DPNMF算法的检索结果优于传统的NMF算法。

3.3 算法运算时间的比较

本节通过计算NMF算法、本文2DPNMF算法与不同颜色特征融合后的运算速度进行比较如表2所示。

通过表2可以看出,本文算法简化了NMF算法中的训练算法部分,减少了损失函数的计算时间,使得整个算法的运算时间得到了提高。

4 结论

本文提出多特征融合与二维投影非负矩阵分解结合的图像检索算法,该算法不仅融合了多种特征,更全面、准确的表达一副图像,而且融合了二维投影非负矩阵分解算法,直接基于二维图像,同时非负限制能够保护图像的局部信息。2DPNMF算法不同于传统的非负矩阵分解算法,二维投影非负矩阵分解算法不在考虑非负矩阵分解的损失函数,只需计算基矩阵即可完成特征提取,不必再构建系数矩阵,简化了计算流程。实验结果证明本文算法提高了检索效率和查准率,有很大的实用价值。

参考文献:

[1]王科俊.左春婷.非负矩阵分解特征提取技术的研究进展 [J].计算机应用研究,2014,04(15).

[2]蒋娇娇.非负矩阵分解算法的改进及应用[D].北京工业大学,2011.

[3]张素娥,周军.Gabor小波变换和NMF结合的人脸识别[J].计算机工程与应用,2015.

[4]C. Boutsidis,E. Gallopoulos. SVD based initialization: A head start for nonnegative matrix factorization[J]. Pattern Recognition,2007(4).

[5]张鑫,温显斌.基于颜色特征的图像检索方法研究[J].计算机科学,2012,11.

[6]刘丽.图像纹理特征提取方法综述[J].中国图像图形学报,2009,4.