首页 > 文章中心 > 计算机视觉的应用方向

计算机视觉的应用方向

计算机视觉的应用方向

计算机视觉的应用方向范文第1篇

近年来,经济的发展和人们生活水平的提升也使得人们的出行更加便捷,越来越多的人都是自己驾车出行,这样导致公路上的交通流量不断增加,如何保障交通的顺畅性和安全性成为人们关注的重点问题。信息技术的发展推动了计算机视觉技术的出现,为交通安全性的提升提供了一定的保障。本文主要对计算机视觉技术进行分析,进一步探讨计算机视觉技术在智能交通系统中的应用。

【关键词】计算机 视觉技术 智能交通 系统 应用

智能交通系统简称ITS,这是一种新型的交通管理系统。该系统主要结合了信息化技术、计算机技术以及数据传输技术等多种技术,用来对整个交通运输体系进行管理,可以实现人、车、路的全面监控和管理。计算机视觉艺术作为智能交通系统中的一个重要环节,受到相关工作人员的高度重视。随着计算机视觉技术的发展,不仅为交通行业的发展提供了更多的便捷,同时还能够筛选道路交通的各种信息,进一步增强了智能交通系统的灵活性和准确性。

1 计算机视觉技术的概述

计算机视觉也被称为图像分析和图解理解,其包括的理论主要有摄影几何学、概率论、图像处理理论以及人工智能理论等部分。计算机视觉技术主要是用二维投影图像实现三维物体重构。这种技术的应用范围比较广泛,不仅应用于二维图像识别方面,同时还用于三维物体的识别和重建上面。通过计算机视觉技术能够获取专业化的三维信息,对三维信息的获取一般有两种方法,其中一种是直接获取法,还有一种是间接获取法。直接获取法主要是通过计算机视觉技术的效果来确定三维运动中产生的各种参数,这一过程对摄像机运动问题的关注程度较高;间接获取的方式就是将单幅图像和摄像机焦距相结合,来判断被测量位置视觉上的信息。计算机视觉技术的关键就是实现特别匹配,在特殊情况下可以利用不同的摄像C同时收集运动信息,从而提高相关控制的精确度。

2 计算机视觉技术在智能交通系统中的应用

计算机视觉技术在智能交通系统中的应用可以实现道路交通的监控,同时还能够实现自动收费、智能导航等功能,主要应用有以下几个方面的内容。

2.1 交通监控中对计算机视觉技术的应用

基于计算机视觉技术的交通监控系统主要分为三个步骤,首先是对车辆和行人进行跟踪和分割,其次是对车流量进行分析和计算,并且计算车辆的平均速度和道路上车辆的队列长度,最后根据道路的交通状况来规划形式线路,从而有效缓解道路交通拥堵的现状,方便人们减少出行时间。车辆和行人作为道路中运动的主要目标,在监控场合下,需要对运动时间进行有效分割,常用到的分割方式包括光流法和帧差法两种,其中前一种分割方式主要是依据图像中不同的运动用映射参数正确的表达,这样可以将具有同样映射参数的光流量进行分配,从而完成参数分割。计算机视觉在交通监控中的应用主要是对车辆速度、车辆数目、车辆分类进行检测。随着计算机通信技术的发展,计算机视觉技术也是日新月异,基于计算机视觉的交通监控系统具有较强的实时工作性,能够快速的适应高度公路以及城市道路交通的监控。

2.2 车辆导航中对计算机视觉技术的应用

实现车辆的智能导航是计算机视觉技术在智能交通中应用的典型案例。这种技术主要为驾驶人员提供道路信息和车辆运行状况两大信息。通过车辆智能导航系统的运行能够对道路两边的界限进行有效的识别,将车辆引向规定的行驶车道,在车辆行驶过程中,该系统能够自动检测车辆与前方其他车辆之间的距离,从而提醒驾驶人员保持车辆的安全距离,最终实现安全导航驾驶。通过该系统的摄像机运动能够识别其他车辆的行驶状况,并且通过计算检测点的方式计算车辆的模拟匹配点。车俩智能导航系统中就使用了计算机视觉技术,可以从中提取相关信息,计算车辆行驶的安全距离和速度。

2.3 计算机视觉技术用于车辆辅助驾驶

计算机视觉技术在车辆辅助驾驶中的应用主要是帮助驾驶人员对外界的变化做出反应。具体表现为车辆在市内行驶时,计算机视觉技术的应用能够识别周边道路的标记,并且对交通标志、其他车辆和行人进行识别,然后筛选相关信息进行计算,让驾驶人清楚外界的具体状况,从而避开其他的车辆和行人,能够从根本上减少交通事故的发生,增强车辆的安全运行。辅助驾驶的形式转变为人机交互的方式,一定程度上能够满足驾驶人员对信息的需求。

2.4 计算机视觉技术用于车辆智能收费

车辆收费是车辆在公共交通位置行驶中的一个关键环节。随着科学技术的发展,车辆收费系统逐渐向着计算机技术的应用方向发展,计算机视觉技术在各地区交通发展中的应用是现代化交通发展的一个重要突破口。很多地区的智能化收费都是通过识别车牌的方式来实现收费,我国在车牌识别这方面仅仅限制于单目车牌和双目车牌的识别,其中单目车牌识别的核心就是将车牌照位置作为核心部分,我国大部分地区都是将单目系统作为核心部分来使用。采用双目系统对车牌进行识别,也可以对车辆的型号进行识别,通过大量的实践发现,双目系统进行车牌识别的实用性较强。但是这种识别方式在实际应用过程中仍然存在着信息获取难度大、车牌照定位难度大等多种问题,尤其是车辆在高速路上行驶时,对于车牌信息的获取更为困难,因此,在这方面还需要加大研究和实践。

3 结束语

随着计算机视觉技术的智能化发展,其在智能交通系统中的应用能够解决多方面的问题。该技术的应用不仅能够实现车辆的实时监控,同时还能够实现车辆导航以及车辆收费,帮助驾驶人员识别车辆行驶中存在的障碍物,这样一来,可以增强车辆行驶的安全性,同时还能够提高我国道路交通系统的整体管理水平。但是该技术应用中也存在不足之处,未来发展中需要降低视觉系统的价格,减少系统的尺寸,从而增强系统对车辆信息的处理速度,最终实现对道路交通的全面监测。

参考文献

[1]王春波,张卫东,许晓鸣.计算机视觉技术在智能交通系统中的应用[J].测控技术,2000(05):22-24.

[2]郁梅,蒋刚毅,郁伯康.智能交通系统中的计算机视觉技术应用[J].计算机工程与应用,2001(10):101-103+121.

[3]顾晶. 基于计算机视觉的智能交通监控系统的研究[D].东南大学,2006.

[4]谢萍萍,黄传春.计算机视觉技术在智能交通系统中的应用[J].福建电脑,2008(10):77+133.

计算机视觉的应用方向范文第2篇

关键词: 计算机 视觉注意机制 计算机视觉注意模型

1.引言

随着信息技术的不断发展,数据处理量剧增,以及用户不断扩大的个性化需求,对计算机信息处理能力提出了越来越高的要求。如何在场景中快速准确地找到与任务相关的局部信息,即物体选择与识别,已经成为计算机信息处理领域的一个研究热点。随着在心理学领域注意机制研究的不断发展,将注意机制引入信息处理领域来解决物体识别问题,已经不再是纸上谈兵。

人类视觉系统进行视觉信息处理时,总是迅速选择少数几个显著对象进行优先处理,忽略或舍弃其他的非显著对象。进入人类视野的海量信息,通过注意选择机制进行筛选,就能使我们有选择地分配有限的视觉处理资源,保证视觉信息处理的效率,这就是视觉选择注意机制的原理。依据人类视觉选择注意的基本原理,开发能够进行智能图像信息处理的计算机系统,就成为一大任务。我们研究的主要方向是使计算机处理对象时,能够具备与人类相似的视觉选择注意能力。

2.视觉注意机制

研究视觉注意机制是个多学科交叉的问题,目前多个领域的研究人员都取得了研究成果,并且对视觉注意的理论都形成了一些共识。目前普遍认为注意既可以是按自底向上(自下而上)的图像数据驱动的,也可以是安自顶向下(自上而下)的任务驱动的。其中,自下而上的研究主要来自图像中物体数据本身的显著性。例如,在视觉搜索实验中,显著的物体会自动跳出,如图1中的圆点通过特征对比,以形状跳出的形式获得注意。自上而下的引导主要来自当前的视觉任务,以及场景的快速认证结果,即我们可以“故意”去注意任何一个“不起眼”的物体,如我们可以在图书馆浩如烟海的藏书中,找到自己感兴趣的那本书。

研究视觉注意机制的重要方法是研究眼睛在搜索目标时的表现。显著图中的各目标在竞争中吸引注意点,注意点在各个注意目标间转移。根据注意点转移时是否伴随眼动,视觉注意也分为隐式注意和显式注意。隐式注意的中央凹不会随着注意点的转移而移动,而显式注意的中央凹随每次注意点的转移而运动。

对视觉注意机制的研究为计算机视觉的发展提供了可能。计算机视觉借鉴人类视觉的注意机制,建立视觉注意的计算模型。通过“注意点”的选择与转移,实现对复杂场景中任务的搜索与定位,最终来实现实时信息的响应处理。在计算机视觉的研究中,显式注意应用较多。

3.计算机视觉注意模型

从人的角度来看,人类视觉系统通过视觉,选择注意在复杂的场景中迅速将注意力集中在少数几个显著的视觉对象上。从场景的角度来看,场景中的某些内容比其他内容更能引起观察者的注意,我们称之为视觉显著性,两者其实是从不同的角度对视觉选择注意过程的描述。

我们把引起注意的场景内容定义为注意焦点FOA(Focus of Attention)。Treisman的特征整合理论中将视觉信息处理过程划分为前注意和注意两个阶段,各种视觉特征在前注意阶段被以并行的方式提取出来,并在注意阶段以串行方式整合为视觉客体,即注意的特征和客体是通过不同方式进行的。在注意焦点的选择和转移上,Koch[2]进行了深入的研究,他提出注意焦点FOA的变化具有四个特征,即单焦点性:同一时刻只能存在一个FOA;缩放性:FOA的空间范围可以扩大或者缩小;焦点转移性:FOA能够由一个位置向另一个位置转移;邻近优先性:FOA转移时倾向于选择与当前注视内容接近的位置。同时注意焦点具有抑制返回的特点,即FOA转移时抑制返回最近被选择过的注视区域。在此基础上,视觉注意的研究人员提出了多种视觉注意模型。

4.视觉注意模型的研究现状

人类的视觉注意过程包括两个方面:一方面是对自下而上的初级视觉特征的加工,另一方面是由自上而下的任务的指导,两方面结合,共同完成了视觉的选择性注意。与此对应,当前的计算机视觉注意研究也分为这两个方面。

4.1自下向上的数据驱动注意模型研究及分析

在没有先验任务指导的情况下,视觉注意的目标选择主要是由场景中自下而上的数据驱动的,目标是否被关注,由它的显著性决定。现在,自下而上的注意研究主要基于Treisman的特征整合理论和Koch&Ullman的显著性模型,Itti、satoh等人均在此基础上提出了自己的研究模型,并做了一些模型的改进研究。自下而上的研究方法通过对输入图像提取颜色、朝向、亮度等方面的基本视觉特征的研究,形成各个特征对应的显著图。另外,一些研究者采用基于局部或全局对比度的方法,来得到图中每个像素的显著性,进而得到显著图。

现有的自下而上的视觉注意计算模型中,Itti的显著图模型(简称Itti模型)最具代表性。该模型主要包含3个模块:特征提取、显著图生成和注意焦点转移。模型通过初级特征的提取,将多种特征、多种尺度的视觉空间通过中央―周边算子得到的各个特征的显著性图合成一幅显著图。显著图中的各个目标通过胜者为王的竞争机制,选出唯一的注意目标,其中注意焦点的转移用的是禁止返回机制。但该模型也有一些缺点,如显著区与目标区域有偏差、计算量较大、运行时间较长、动态场景中实时处理不平等。

在动态场景之中,由于Itti模型很难满足实时性的要求,科研工作者们正在努力研究动态场景的特性,并建立相应的动态模型。如Wolfe[1]指出,影响前注意的特征包括颜色、方向、曲率、尺寸、运动、深度特征、微调支距、光泽、形状,等等,其中又以运动特征最为敏感。而You等采用了一种空间域特征和时间域特征相结合的视觉注意模型,该模型假设当场景中存在全局运动时,视觉注意对象将极少做运动。然而,许多真实的场景并不能满足这个假设,限制了模型的适用范围。Hang等人提出了一种运动图的计算方法,并把运动图作为特征之一,与颜色、亮度、方向等特征结合。这些研究关注了运动特征对视觉的影响,但是均存在一定的局限性,对于复杂的运动场景的注意焦点计算很难取得良好的效果。

我国研究者也在Itti注意模型的基础上研究了适合动态场景中的注意模型,形成了一些理论成果。如曾志宏[2]等人提出注意焦点计算模型,郑雅羽[3]等提出基于时空特征融合的视觉注意计算模型。这些模型都能较好地提取动态场景下的视觉目标。

4.2自上而下的任务驱动的注意模型研究及分析

自上而下的注意即任务驱动的注意,通过目标和任务的抽象知识,在一定程度上指导注意焦点的选择。在自上而下注意模型的研究方面,Laar(1997)提出了一个用于隐式视觉注意的模型,该模型通过任务学习,将注意集中于重要的特征。Rabak[4]提出了基于注意机制的视觉感知识别模型,该模型在定义目标显著性时,通过语义分析对其他三个自下向上的视觉控制参数项进行线性组合。Salah将可观测马尔科夫模型引入到模拟任务驱动的注意模型研究中,并在数字识别和人脸识别的实验中取得了很好的效果。Itti提出以调节心理阈值函数的形式来控制视觉感知。

目前对自下而上的数据驱动方面的研究较多,而对自下而上的任务驱动方面研究较少。因为任务驱动的注意与人的主观意识有关,同时受到场景的全局特征影响。自上而下的注意涉及记忆、控制等多个模块的分工协作,其过程非常复杂。

5.计算机视觉注意模型研究的趋势

自底向上和自顶向下的加工是两种方向不同的信息处理机制,两者的结合形成了统一的视知觉系统。人类的视觉信息处理系统只有遵循这样的方法,才能有效地实现视觉选择注意的目的。

实践证明,把自底向上和自顶向下的研究相分离的研究方法并不能很好地解决计算机的视觉注意过程。要想使计算机能够准确模拟人类的视觉注意过程,实现主动的视觉选择注意的目的,采用两种研究方法相结合的形式势在必行。自底向上的视觉注意计算往往离不开与自顶向下的有机结合,实现二者的优势互补是以后计算机视觉注意研究的一个趋势。

参考文献:

[1]Wolf J M,Cave K R.Deploying visual attention:the guided search model.In:Troscianko T,Blake A,eds.AI and the Eye.Chichester,UK:Wiley press,1990.

[2]曾志宏,周昌乐,林坤辉,曲延云,陈嘉威.目标跟踪的视觉注意计算模型[J].计算机工程,2008,(23).

[3]郑雅羽,田翔,陈耀武.基于时空特征融合的视觉注意模型[J].吉林大学学报,2009,(11).

[4]Rabak I A,Gusakova V I,Golovan A V,et al.A model of attention-guided vision perception and recognition.Vision Research,1998,38.

计算机视觉的应用方向范文第3篇

关键词:全景视觉;机器人;粒子群优化;SLAM算法

全景视觉传感器以其360°的感知范围获得更多的图像信息进而更完整地表达机器人所在的环境,增强了机器人的对视觉路标的持续观测能力和地图创建能力,提高了机器人对地图的利用率,有利于系统不确定性的收敛等特点在未知环境的SLAM(Simultaneous location and mapping)[1]问题中被广泛应用且取得了很好的效果[2]。

传统解决SLAM问题的方法通常依据卡尔曼滤波[3],其最大的优点是意义明确、简洁易实现,但比较适合小尺度的环境,对于大尺度的室外环境,算法的运算量过大,无法满足应用需求。

Montemerlo等将Rao-Blackwellised粒子滤波融合到EKF算法中,给出了FastSLAM算法的解决方案,相比基于卡尔曼滤波的SLAM算法计算量大大降低。但FastSLAM算法的粒子退化问题仍难以解决,为此利用重采样的方式进行改进,虽然减轻了粒子退化,但却带来了粒子贫化问题。为此,文章引入了粒子群优化算法,很好的解决了粒子的贫化问题。

1 FastSLAM算法基本原理和粒子群优化的原理

1.1 FastSLAM算法原理介绍

FastSLAM算法的运动模型和观测模型一般用下面的形式进行描述:

式中,v(k)和?棕(k)为Gaussian白噪声,其协方差分别记为R(k)和Q(k);f和h为非线性函数;Xr(k)为k时刻全景视觉移动机器人位姿;xn(k)为n(k)的路标的信息;Z(k)、u(k)为k时刻全景视觉移动机器人的观测值和运动值。

使用FastSLAM算法进行同时定位与地图创建的核心问题是用后验概率分布来估计全景视觉移动机器人的运动轨迹X和创建的地图Xn(k),表示为:

(3)

根据Bayes规则和Markov假设可得,

式(4)的采用Murphy and Russell[4]在1999年提出的因式分解法。

1.2 粒子群优化算法

在维数为n的空间里,随机一个粒子群,其中的任一粒子表示我们所要解决的问题的可能的答案,共m个。V表示第i个粒子在t时间在搜索空间里的移动速度,V表示该粒子在t时间的位置。所有粒子都根据该时刻粒子群里的最优粒子,来进行迭代搜索。

迭代过程中,每个粒子在不同时刻的位置和速度都会根据下面两个极值得到:粒子群体最好位置为gBest(即整个粒子群的最优解),粒子自身的最好位置为pBest(即粒子自己的最优解)。若粒子群中总共包含n个粒子,每个粒子的位置和速度可以由下面的方程(5)和(6)得到。

(5)

(6)

式中w为惯性权重,通常w是伴随着迭代次数的增加而逐渐变小,w越小算法的搜索能力越小,在值小到一定程度时,只能具备在局部进行搜索的能力,w越大算法的搜索能力越强,能实现全局搜索;c1为粒子自身的加速权重系数,c2为粒子群体的加速权重系数;Rand1为c1相关的随机初值,Rand2为c2相关的随时初值,且在区间(0,1)范围内;在整个搜索过程中,gBest为整个粒子群体的最优解,pBest为粒子自身的最优解,也就是最佳位置。

2 基于全景视觉机器人的粒子群优化FastSLAM算法

文章提出了基于全景视觉移动机器人的粒子群优化FastSLAM算法。结合粒子群优化算法,通过PSO算法更新预估的粒子进而改变其提议分布,这就在预测全景视觉移动机器人位置的时候,还考虑了观测到的最新的路标信息,预测到的采样粒子大多集中在全景视觉移动机器人的实际位置周围。另外,在粒子群预估时,不仅要考虑单独的粒子本身,还要考虑整个粒子群的共同作用,进而达到同传统的FastSLAM相比,在获得相同的真实系统状态分布预测精度的情况下,需要更少的粒子数量,这也就解决了前面提到的FastSLAM面临粒子耗尽问题。

第一,利用粒子群优化算法中的位置和速度方程对全景视觉移动机器人的位姿进行预测更新,方程如下:

式中,Rand1()和Rand2()为对角线矩阵,矩阵对角线上均为符合标准正态分布的随机正数;c1和c2表示学习因子。XgBest表示全景视觉移动机器人位姿预测值的全局最优解,XpBest表示全景视觉移动机器人位姿预测值的局部最优解。由式(7)和式(8)进行更新,全景视觉移动机器人的位姿向量由Xt变为X。

第二,为了评价粒子群优化算法对全景视觉移动机器人位姿预测的改进程度,引入适应度函数,函数如下:

(9)

式中Rk为全景视觉移动机器人的测量噪声协方差矩阵;ZtPred为t时刻全景视觉移动机器人对环境中路标的预测观测值。ZtPred由已经创建的地图mt-1和全景视觉移动机器人的预测位姿值X计算得到,引入如下函数[5]:

(10)

如果全景视觉移动机器人在t时刻再一次观测到之前观测过的特征mt-1,就可以在全景视觉移动机器人预测位姿X的基础上,得到这个特征相对于全景视觉移动机器人预测位姿X的预测观测值ZtPred。根据观测值的预测值和实际值差值判断全景视觉移动机器人更新后的位姿X与实际位置是否更接近。文章在此设定一个阈值?啄,当适应度函数值Fitness

基于全景视觉移动机器人的粒子群优化FastSLAM算法流程如下:

(1)预测:通过提议分布对当前状态下的粒子群集合进行预测采样,得到下一个时刻的粒子群集合,st~p(st|st-1,ut)。

(2)粒子群优化:

a.将粒子集st的全景视觉移动机器人位姿作为XpBest;

b.通过式(7)和式(8)求取并更新粒子的速度,得到经过优化后的预估粒子集sts;

c.通过式(9)和式(10)计算出环境中路标观测的预测值和适应度函数值Fitness;

d.当Fitness

e.当Fitness?叟?啄,粒子集s的全景视觉移动机器人位姿赋予

XgBest,粒子群优化结束。

(3)权重计算:粒子的权重由下式计算出

(11)

(4)重采样:按照权重大小的不同,在临时的粒子集s里抽取一定比例的粒子,并将这些抽取出来的粒子添加到新的粒子集s中。

如果粒子集在计算权重之前,粒子集在粒子群优化后能更接近全景视觉移动机器人的实际位置,则权重可以体现粒子的真实分布情况,重采样的效果也就更好,粒子集的收敛的速度也更快,也就会为下一个周期的全景视觉移动机器人的位姿预测提供一个更加准确的初始值。

3 实验及分析

本小节分别对基于全景视觉移动机器人的传统FastSLAM算法和文章的改进FastSLAM算法的进行仿真实验,进而验证文章所提出全景视觉移动机器人的改进FastSLAM算法的优势。

仿真选取的环境为400m×400m的矩形区域,该区域中分布着若干环境特征点,用“*”表示;在实验中提前规划了全景视觉机器人的行驶路线,全景视觉机器人的行驶路线由25个路径点(用“”表示)确定。

在上述仿真条件下,选取粒子数N=100,分别对传统的FastSLAM和文章采用的改进的FastSLAM算法进行仿真实验,对全景视觉移动机器人定位精度进行比较分析。

图1和图2为传统的FastSLAM和文章采用的改进FastSLAM的仿真结果。全景视觉机器人从(0,0)点出发,沿行驶路线按逆时针方向行驶1周。长虚线是按路径信息设置好的全景视觉机器人运动轨迹;短虚线表示机器人实际运动轨迹;直线表示机器人利用SLAM算法之后得到的估计更新后的轨迹;“×”表示地图中预设的静止路标;“+”表示全景视觉机器人经过SLAM算法得到的环境中路标估计位置;椭圆表示全景视觉机器人对路标误差的估计,椭圆的大小代表了对应路标的不确定程度。位于短虚线的矩形表示全景视觉机器人在控制信息下到达的实际位置,位于直线的矩形表示全景视觉机器人在SLAM算法下所估计的位置。

图3和图4为两种SLAM算法获得的全景视觉机器人定位误差对比情况。横轴为SLAM执行过程中的运行时间,纵轴为全景视觉机器人在X和Y方向上的位置偏差,t时刻X方向的位置偏差值是由该时刻的全景视觉机器人位置的实际值和经过SLAM算法得到的估计值的全局坐标的x值相减并取绝对值得到,Y方向的位置偏差同理可得。

总体上从曲线中可以看出,两种算法都具有较小的估计误差,且误差具有收敛性,由此表明,这两种SLAM算法能有效实现自主定位。但传统的FastSLAM算法的全景视觉机器人位置估计的X方向的最大误差为5.0469m,Y方向的最大误差为2.7413m,而采用文章提出方法的全景视觉机器人位置估计的X方向的最大误差为1.0576m,Y方向的最大误差为0.9717m。证明文章采用的改进的FastSLAM算法的全景视觉机器人定位精度明显优于传统的FastSLAM算法。仿真实验结果与前文的理论分析一致。

4 结束语

文章将粒子群优化算法引入到全景视觉移动机器人FastSLAM算法,使粒子获得更接近真实系统状态分布的预测,提高了全景视觉移动机器人FastSLAM预测过程的粒子采样效率。仿真实验证明,全景视觉机器人在完成位姿估计和地图创建时仅需较少的粒子即可实现,提高了SLAM的精度和运行效率。

参考文献

[1]梁志伟,马旭东,戴先中,等.基于分布式感知的移动机器人同时定位与地图创建[J].机器人,2009,31(1):33-39.

[2]吴叶斌.基于全景视觉的移动机器人SLAM方法研究[D].哈尔滨:哈尔滨工程大学,2011

[3]Kurt K.Improved Occupancy Grids for Map Building.Autonomous Robots,1997,4:351-367.

计算机视觉的应用方向范文第4篇

关键词 模式分析 计算机视觉 教学改革

中图分类号:G643.2 文献标识码:A DOI:10.16400/ki.kjdkz.2016.03.015

Research and Practice on Course Group of Pattern Analysis and

Visual Processing for Graduated Students

SUN Han, CHEN Songcan, LIU Ningzhong, HUANG Yuanyuan, ZHU Qi

(College of Computer Science and Technology, Nanjing University of

Aeronautics and Astronautics, Nanjing, Jiangsu 210016)

Abstract By analyzing the teaching status of pattern analysis and visual processing course group, this paper puts forward the new teaching goal, which includes improving students' international vision, the ability of linking theory with practice, and promoting the engineering practice ability and innovative consciousness. Then this paper discusses the whole process of course group reform. Firstly the structure of teachers' group is optimized. And then the knowledge system of course group is sorted and the teaching mode is improved. Finally the practice system of course group is optimized and the assessment system is reformed.

Key words pattern analysis; computer vision; teaching reform

1 背景

我校模式分析与智能计算研究所师资团队是江苏省“青蓝工程”创新团队,主要研究领域包括智能数据分析、图像处理和机器视觉等方向,承担研究生和本科生的模式识别、机器学习、数据挖掘、智能信息检索、数字图像处理、计算机视觉等课程的教学任务。以往的教学过程中虽然积累了丰富的教学经验,但当前新知识不断涌现、新技术发展迅猛,对模式分析与视觉处理课程群的知识体系、实践体系改进提出了新的挑战。

近年来,国内外高校在该类课程教学上,已涌现出众多新理念、新方法。Coursera联合创始人Andrew Ng推出的机器学习课程,开启了教育领域的MOOC时代,引领了教育教学方法的新革命。①深圳大学、②江苏科技大学③分别进行了基于CDIO工程教育理念的计算机视觉课程教学改革实践,实现多层次项目设计的教学模式改革,讲座式、讨论式、实践式教学方法的探索。国防科技大学④在计算机视觉课程中引入研讨式教学模式,通过案例教学、小组研讨的方式来替代传统的教学方式。华中科技大学⑤从教学内容国际化、教学方式国际化、教学成果国际化三个方面开展了计算机视觉课程的国际化建设。另外,也有高校进行了图像工程课程群建设,⑥基于图像分析与计算机视觉应用课程结合的项目协同创新能力培养实践。⑦

在分析上述国内外高校该类课程改革的基础上,我们重点以模式分析与视觉处理课程群的实践教学体系改革为切入点,优化师资队伍结构,梳理课程群知识体系,优化课程授课模式,完善课程群实践体系,改革实践考核模式,实现学生国际化视野、理论联系实际、工程实践和创新能力全面提升的目标。

2 模式分析与视觉处理课程群特点

模式分析与视觉处理课程群涵盖了模式识别、机器学习、数据挖掘、数字图像处理、计算机视觉等多门课程。该类课程存在以下特点。

(1)该类课程属于多学科交叉,涉及的知识面既广又深。由于该方向涉及计算机科学与技术、应用数学、自动化、电子科学与技术、信息工程等多学科内容,而学生在大学本科阶段很难学习和了解如此多的知识模块,这对研究生阶段学习来说,具有相当大的挑战。同时,对于每个知识模块,所要求的数学基础较高,理论具有相当的深度,理解和掌握不容易。

(2)该类课程既重视扎实的基础理论,也强调良好的工程实践能力。该类课程的基础理论教学一直受到各高校的重视。随着近年来产业界的迅猛发展,计算机视觉应用层出不穷,对学生的工程实践也提出了更高要求,需要能够在系统层次上有整体认知,同时要能对各功能模块进行优化,提升系统的整体性能。

(3)该类课程所面向的选修学生面广。该类课程既是多学科交叉,也面向计算机应用、电子科学与技术、自动化、应用数学等不同研究方向、不同水平层次的研究生开设。这对课堂教学和实验实践也带来更大挑战。

3 模式分析与视觉处理课程群改革举措

针对上述分析的课程群特点,我们重点以实践体系改革为突破口,通过优化师资队伍结构,梳理课程群知识体系,优化课程授课模式,完善课程群实践体系,改革实践考核模式等举措,实现学生国际化视野、理论联系实际、工程实践和创新能力全面提升的目标。

3.1 师资队伍结构优化

为了学生能够适应模式分析与视觉处理产业的快速发展,在课程群建设过程中更强调学生的工程实践和创新能力培养。这首先对师资队伍结构提出了新的要求。

近年来,课程教学团队引进海内外具有深厚理论功底和较强工程能力的高水平师资4名,大大充实了机器学习、数据挖掘、图像处理等课程的教学力量。对于现有教师队伍,鼓励教师跟产业一线企业广泛合作,目前已与华为、中兴等企业在视频检索、智能交通视觉处理等方面开展了实质合作。这些来源于产业界的高质量课题对科研和教学起到了良好的促进作用。

与此同时,通过研究生工作站、企业短期实习等渠道,鼓励企业高级研发人员参与到学生实践能力培养环节中,将实际项目进行适当切分或提炼,实现该类课程实践环节的模块化、专题化训练。

综上,通过引培并举,优化校内师资队伍结构;通过校企合作,积极吸引企业师资参与。良好的师资队伍为该类课程的实践体系改革提供了有力支撑。

3.2 课程群知识体系梳理与授课模式改革

模式识别、机器学习、数据挖掘、智能信息检索、数字图像处理、计算机视觉等课程既有一定的逻辑关系,也存在相互交叉的混杂关系。一般认为,模式识别、机器学习是模式分析与视觉处理领域的基础理论课程,数据挖掘是建立在模式识别、机器学习和数据库基础上的应用类课程,智能信息检索则是数据挖掘基础上更为具体的应用实现。数字图像处理为计算机视觉课程提供了基础支撑,计算机视觉则是在综合利用模式识别、机器学习、数字图像处理、数据挖掘等知识模块基础上面向应用的系统实现。但是,这些课程也存在着知识点的交叉或重复。例如,模式识别和机器学习中都有贝叶斯参数估计、支持向量机模型等知识点,但视角和侧重点有所不同;图像处理、计算机视觉中都有颜色模型、成像模型等知识点,也同时存在与模式识别、机器学习交叉的知识点。

我们针对来自不同研究领域的学生群体,对该课程群的知识点进行系统梳理,既避免知识点的重复讲授,也防止重要知识点的缺漏。课程教师集体讨论,形成每门课程的核心知识集,和针对不同研究领域的选讲知识集。学生在学习课程时,在掌握核心知识集的基础上,结合自己的研究方向选择相关的选讲知识集学习。

在课程教材和参考书的选择上,注重挑选国际上有影响力的教材。例如,模式识别的参考书为Richard O. Duda等人编著的Pattern Classification;机器学习的参考书为Tom M. Mitchell编著的Machine Learning和Christopher M. Bishop编著的Pattern Recognition and Machine Learning;数据挖掘的参考书为Jiawei Han等人编著的Data Mining:Concepts and Techniques;数字图像处理的参考书为K. R. Castleman编著的Digital Image Processing;计算机视觉的参考书为D. A. Foryth编著的Computer Vision: A Modern Approach和Richard Szeliski编著的Computer Vision: Alogrithms and Applications。这些教材已被国内外著名大学普遍采用。同时,每门课程都提供相关的国内外顶级会议和期刊的列表,供学生课后追踪研究领域的热点问题。

在课堂授课环节上,注意采用灵活多样的授课方式。对于核心基础知识模块,以教师讲授为主,同时提供国内外该类课程的热门MOOC网址给学生参考。对于选讲知识模块,鼓励学生事先结合各自研究方向有目的自学,在学生报告的基础上进行课堂讨论方式进行。充分发挥学生学习的主体作用,也便于教师了解学生的水平和学习状况。

除此以外,不定期邀请国内外著名学者来校做学术报告,让学生充分了解该研究领域的最新前沿动态,并就热点问题进行专题讨论。

3.3 课程群实践体系完善与考核方式改革

工程实践和创新能力的培养是该课程群改革的重要目标。我们在上述师资队伍结构优化、课程群知识体系梳理与授课模式改革的基础上,着力进行课程群实践体系的改革与完善。我们通过多层次菜单式的实验项目选择、项目牵引的创新能力训练、学生综合研究能力的全面考查等方面来实现。

首先,整合和优化课程群实践内容,实现多层次菜单式灵活选择。根据各研究领域的要求进行灵活搭配,根据学生个体的能力与水平选择适当规模和难度的实践内容,通过课程内的基础实验、课程间的综合实验、课程群的创新实验来选择和组合,如图1所示。

图1 多层次菜单式实验内容示意图

基础型实验内容主要是各课程核心知识点的实验验证,主要包括模式识别,机器学习,数据挖掘,图像处理与分析,计算机视觉等课程的实验。要求选课学生对这些基础实验必做,打下良好的研究基础。

综合探索型实验在基础型实验基础上,既有单门课程内总的综合实验,也有课程间知识的综合应用。主要分为两大块,包括模式分析与机器学习方向的综合实验,以及图像处理与机器视觉方向的综合实验。实验目的主要是针对这两大块方向重点知识的综合分析和比较,能够熟练掌握和灵活应用。例如模式分析、机器学习、数据挖掘等方向都用到的线性判别分析、支持向量机、均值聚类等内容;图像处理与机器视觉中的图像特征抽取、视觉系统选型、目标检测、特定平台的算法优化等内容。学生可根据各自研究方向有目的的选择两块综合实验的大部分内容。

在综合型实验基础上,该课程群通过若干创新型实验来检验学生理论知识掌握程度和实践方法应用能力,为后续的研究课题开展打下良好的科研素养。主要内容包括人脸识别、二维条码识别、车辆属性识别、智能视觉监控、以及企业来源的关键技术等。这些项目实践既涉及用到图像处理与机器视觉的内容,也涉及模式分析与机器学习方向的知识。并且需要学生在综合运用相关知识的基础上有创新能力。

其次,重视各类项目牵引的创新能力训练。一方面,鼓励教师从国家自然科学基金、企业合作项目等研究中提炼出问题规模和难度适中的训练项目,作为课程群的综合能力训练项目。另一方面,鼓励学生参加挑战杯、全国研究生智慧城市技术与创意设计大赛等各类具有挑战性的竞赛项目,以赛代练,提升学生的工程实践和创新能力。同时,也鼓励学生利用百度、微软等相关研究领域的企业实习机会,参与产品一线的工程实践能力训练。

再次,注重考核环节,实现科研素养和实践能力的全面考查。只有严格、公平、公正的考核,才能保证实验实践的质量和水平,才能提升学生的科研素养和实践能力。我们主要在手段、方式方法上进行了改进。在题目选择上,根据学生个体水平和研究领域要求的差异,在选题上有适当的难易区分度,让每位学生都有锻炼和提升的机会;在考核方式上,采用结题书面报告来检验学术论文的写作能力,采用程序演示检验系统的设计与实现水平,采用上台汇报的方式检验学生的表达能力,多管齐下全面检查学生的综合科研素养;在考核成绩评定上,采用现场教师和学生共同评分的方式,公平合理;最后,通过网站展示、发表学术小论文、专利、软件著作权等方式展示和公开优秀成果,激发学生的学习热情,并由此形成积累,有利于学生实验实践氛围的传承。

4 结语

本文在分析国内外高校模式分析与视觉处理类课程群改革现状的基础上,以学生国际化视野、理论联系实际、工程实践和创新能力全面提升为目标,重点开展了师资队伍结构优化、课程群知识体系梳理、课程授课模式改革、课程群实践体系完善和实践考核模式改革等工作,取得了良好的效果,并为校内其他课程群的教学改革作为示范推广。

注释

① https:///learn/machine-learning/

② 郭小勤,曹广忠.计算机视觉课程的CDIO教学改革实践.理工高教研究,2010.29(5):98-100,148.

③ 史金龙,白素琴,庞林斌,钱强.研究生机器视觉课程的CDIO教学改革实践.计算机教育,2013.9:40-43.

④ 陈芳林,刘亚东,沈辉.在《计算机视觉》课程中引入研讨式教学模式.当代教育理论与实践,2013.5(7):112-114.

⑤ 王岳环,桑农,高常鑫.计算机视觉课程的国际化教学模式.计算机教育,2014.19:101-103.

计算机视觉的应用方向范文第5篇

【关键词】CCD;视频数字信号处理器;设计

1 机器人视觉系统的硬件系统

1.1 机器人视觉系统的硬件由下述几个部分组成

1.1.1 景物和距离传感器常用的摄像机、CCD图像传感器、超声波传感器和结构光设备等。

1.1.2 视频信号数字化设备其任务是把摄像机或CCD输出的信号转换成方便计算和分析的数字信号。

1.1.3 视频信号快速处理器,视频信号实时、快速、并行算法的硬件实现设备:如DSP系统。

1.1.4 计算机及其外设根据系统的需要可以选用不同的计算机及其外设来满足机器人视觉信息处理及机器人控制的需要。

1.1.5 机器人或机械手及其控制器。

1.2 机器人视觉的软件系统有以下几个部分组成

1.2.1 计算机系统软件选用不同类型的计算机,就有不同的操作系统和它所支持的各种语言、数据库等。

1.2.2 机器人视觉信息处理算法图像预处理、分割、描述、识别和解释等算法。

1.2.3 机器人控制软件。

2 CCD原理

视觉信息通过视觉传感器转换成电信号,在空间采样和幅值化后,这些信号就形成了一幅数字图像。机器人视觉使用的主要部分是电视摄像机,它由摄像管或固态成像传感器及相应的电子线路组成。这里我们只介绍光导摄像管的工作原理,因为它是普遍使用的并有代表性的一种摄像管。固态成像传感器的关键部分有两种类型:一种,是电荷耦合器件(CCD);一种,是电荷注入器件(CID)。与具有摄像管的摄像机相比,固态成像器件重量轻、体积小、寿命小、功耗低。不过,某些摄像管的分辨率仍比固态摄像机高。偏转电路驱使电子束对靶的内表面扫描以便“读取”图像。玻璃屏幕的内表面镀有一层透明的金属薄膜,它构成一个电极,视频信号可从此电极上获得。一层很薄的光敏“靶”附着的金属膜上,它是一层由一些极小的球状体组成,球状的电阻反比于光的强度。在光敏靶的后面有一个带正电荷的细金属网,它使电子枪发射出的电子减速,以接近于0的速度达到靶面。在正常工作时,将正电压加在屏幕的金属镀膜上。在无光照时,光敏材料呈现绝缘体特性,电子束在靶的内表面上形成一个电子层以平衡金属膜上的正电荷。当电子束扫描靶内表面时,光敏层就成了一个电容器,其内表面具有负电荷,而另一面具有正电荷。光投射到靶层,它的电阻降低,使得电子向正电荷方向流动并与之中和。由于流动的电子电荷的数量正比于投射到靶的某个局部区域上的光的强度,因此其效果是在靶表面上形成一幅图像,该图像与摄像管屏幕上的图像亮度相同。也就是说,电子电荷的剩余浓度在暗区较高,而在亮区较低。电子束再次扫描靶表面时,失去的电荷得到补充,这样就会在金属层内形成电流,并可从一个管脚上引出此电流。电流正比于扫描时补充的电子数,因此也正比于电子束扫描处的光强度。经摄像机电子线路放大后,电子束扫描运动时所得到的变化电流便形成了一个正比于输入图像强度的视频信号。电子束以每秒30次的频率扫描靶的整个表面,每次完整的扫描称为一帧,它包含525行,其中的480行含有图像信息。若依次对每行扫描并将形成的图像显示在监视器上,图像将是抖动的。克服这种现象的办法是使用另一种扫描方式,即将一帧图像分成两个隔行场,每场包含262.5行,并且以2倍帧扫描频率进行扫描,每秒扫描60行。每帧的第一场扫描奇数行,第二场扫描偶数行。这种扫描方式称为RETMA(美国无线电、电子管、电视机制造商协会)扫描方式。还有一种可以获得更高行扫描速率的标准扫描方式,其工作原理与前一种基本相同。例如在计算机视觉和数字图像处理中常用的一种扫描方式是每帧包含559行,其中512行含有图像数据。行数取为2的整数幂,优点是软件和硬件容易实现。

讨论CCD器件时,通常将传感器分为两类:行扫描传感器和面阵传感器。行扫描CCD传感器的基本元件是一行硅成像元素,称为光检测器。光子通过透明的多晶硅门由硅晶体吸收,产生电子-空穴对,产生的光电子集中在光检测器中,汇集在每个光检测器中,汇集在每个光检测器电荷的数量正比于那个位置的照明度。两个传送门按一定的时序将各成像元素的内容送往各自的移位寄存器。输出门用来将移位寄存器的内容按一定的时序关系送往放大器,放大器的输出是与这一行光检测器中内容成正比的电压信号。

3 视频数字信号处理器

图像信号一般是二维信号,一幅图像通常由512×512个像素组成(当然有时也有256×256,或者1024×1024个像素),每个像素有256级灰度,或者是3×8bit,红黄兰16M种颜色,一幅图像就有256KB或者768KB(对于彩色)个数据。为了完成视觉处理的传感、预处理、分割、描述、识别和解释,上述前几项主要完成的数学运算可归纳为:

3.1 点处理常用于对比度增强、密度非线性较正、阈值处理、伪彩色处理等。每个像素的输入数据经过一定关系映射成像素的输出数据,例如对数变换可实现暗区对比度扩张。

3.2 二维卷积的运算常用于图像平滑、尖锐化、轮廓增强、空间滤波、标准模板匹配计算等。若用M×M卷积核矩阵对整幅图像进行卷积时,要得到每个像素的输出结果就需要作M2次乘法和(M2-1)次加法,由于图像像素一般很多,即使用较小的卷积和,也需要进行大量的乘加运算和访问存储器。

3.3 二维正交变换常用二维正交变换有FFT、Walsh、Haar和K-L变换等,常用于图像增强、复原、二维滤波、数据压缩等。

3.4 坐标变换常用于图像的放大缩小、旋转、移动、配准、几何校正和由摄影值重建图像等。

3.5 统计量计算如计算密度直方图分布、平均值和协方差矩阵等。在进行直方图均衡器化、面积计算、分类和K-L变换时,常常要进行这些统计量计算。

在视觉信号处理时,要进行上述运算,计算机需要大量的运算次数和大量的访问存储器次数。如果采用一般的计算机进行视频数字信号处理,就有很大的限制。所以在通用的计算机上处理视觉信号,突出有两个局限性:一是运算速度慢,二是内存容量小,为了解决上述问题,可以采用如下方案:

(1)利用大型高速计算机组成通用的视频信号处理系统为了解决小型计算机运算速度慢、存储量小的缺点,人们自然会使用大型高速计算机,但缺点是成本太高。

(2)小型高速阵列机采用大型计算机的主要问题是设备成本太高,为了降低视频信号处理系统的造价,提高设备的利用率,有的厂家在设计视频信号处理系统时,选用造价低廉的中小型计算机为主机,再配备一台高速阵列机。

(3)采用专用的视觉处理器为了适应微型计算机视频数字信号处理的需要,不少厂家设计了专用的视觉信号处理器,它的结构简单、成本低、性能指标高。多数采用多处理器并行处理,流水线式体系结构以及基于DSP的方案。

【参考文献】