首页 > 文章中心 > 数字化管理特征

数字化管理特征

数字化管理特征

数字化管理特征范文第1篇

现代化档案数字化管理的特征主要表现为:①以网络化为基础的特征。档案数字化管理的一大特性就是网络化。随着互联网的发展,网络的运用已经渗透到各行各业。基于网络化的基础上进行档案的管理,不仅能够提高档案管理的工作效率,还能最大限度的节省相关的人力物力,对于档案完整性的保持上,网络化的运作也体现出最大的优势。②数字化管理模式的特征。对档案进行数字化的管理就是指基于数字化的基础上,对各类文件或者是图纸进行扫描,进而转化成为电子资源的形式。电子资源的最大优势就是能最大限度的节省空间,提高管理工作的效率和准确性,而且在查询和整理环节,也提供了巨大的便捷。③档案高效使用的特征。档案管理最终目的是合理应用档案信息。采用数字化管理模式不仅能够提高管理的效率同时也能提高对于档案信息的使用效率。上文已经对档案数字化管理的含义有了一定的了解,而结合我国档案管理的现状来看,档案数字化管理的推进有一定的现实意义,不仅能够将管理者从繁琐的管理工作中解放出来,还能促进整个社会的档案意识的形成。

2现代档案数字化管理存在的主要问题

结合笔者实践工作经验,认为现代档案数字化管理存在的问题主要有:①档案数字化建设缺乏有力的支持。a.缺乏国家与政府的有力支持。我国当前的档案数字化建设无论是在技术上还是在组织都缺乏政府的支持,没有明确的技术性与管理性标准,处于自我探索的阶段,影响了档案数字化建设。b.硬件环境问题。我国当前档案馆所开发的计算机软件,实用性与通用性还比较滞后,且设备的性能不能满足档案数字化建设对硬件设备的要求。②档案数字化建设缺乏统一的标准与规范。片面重视高档的计算机系统以及先进通信设备的购置,忽视了档案信息的规范化与标准化建设,这是当前我国档案数字化建设普遍存在的问题。这不仅增加了档案数字化建设中的资金投入,还没能体现出档案数字化的服务功能。

3加强现代档案数字化管理的措施

(1)建立健全现代档案数字化管理制度。①现代档案数字化管理有别于传统的档案管理方式与方法,因此,档案管理部门要结合自身的实际情况,建立一套新的并适合档案数字化管理的规章制度,如档案工作制度、档案信息的管理规范、档案信息安全保密制度以及机房管理制度等,使档案数字化管理有制度的保障,实现档案数字化管理的规范化与标准化。②树立安全保密意识。档案数字化建设中一个重要的问题即是安全问题。电子档案信息是通过数据的形式储存在数据库中的档案信息,若出现安全问题,就可能造成大量的数据损坏。因此,在档案数字化建设过程中,要加强安全防范意识,正确操作计算机,并采取有力的措施防止黑客与病毒的入侵。(2)科学利用相关资源。①保证资源的准确性与完备性。对于档案资源的扫描、入库以及整理环节一定要注意资源的准确性,不要出现一些过失性的错误。档案资源数字化系统建设之前仍需要一部分人力劳动,而人力劳动难免出现疏忽,因此需要避免资源遗漏现象的出现。②统一配备软硬件设施。相关软件硬件设施是档案数字化管理建设正常进行的基础保障,其直接决定着档案资源入库后一系列工作的正常开展,因此对于软件硬件设施的统一配备也是建设开始之前必不可少的准备工作,它不仅有利于提高信息资源的使用率,对于一些网络技术的支持上,同样也发挥着重要的作用。③定期检查和更新。社会的快速发展,对于档案管理工作的更新速度方面有了新要求,对于档案的更新方面,仍需要大量人力物力的投入,因此在档案管理数字化建设当中,对于档案的更新也应得到一定的技术支持,同时还应配备相关的专门部门开展档案的更新工作。(3)强化现代档案数字化管理标准化建设。现代档案管理数字建设并不是一项容易的工作,其涉及的环节诸多,且存在许多容易被遗漏的地方,因此在具体数字化建设过程当中,相关档案主管部门应提高重视程度,聘请相关的专家对管理系统的构建做出一套详尽的计划,并且对于相关的工作原则以及工作任务的分工应尽量细致到每个部分和环节,尽量减少疏漏。信息管理系统建设的过程中,提高相关的硬件操作上的要求,并且对于网络安全问题采取相关的措施,按照行业化的标准对档案数字化管理系统进行科学合理的构建。

4结束语

综上所述,长期以来,档案资料一般用纸质文档存储在档案室里面,查找检索时浪费很多时间,存储空间又大,维护不方便,备份需要大量的人力物力,而且容易出现错误。随着计算机信息技术的发展,现代档案数字化管理已成为必然的趋势。

作者:刘玉俊 单位:海东科技投资有限责任公司

参考文献

[1]邹薇.新常态下谈事业单位档案的数字化管理[J].卷宗,2016(05).

数字化管理特征范文第2篇

[关键词]数字产品;电子商务;课税;税制改革

1电子商务课税研究的现状

目前,对数字产品电子商务进行课税的研究,绝大多数研究者(包括官方观点)都是主张不开征新税,而沿用现在的税制。在这一共识的基础上,对如何适用现行税制,即征收哪种税,则产生了严重的分歧。比如,在电子商务环境下,网上提供的数字产品(如计算机软件),究竟是有形货物、劳务服务,还是特许权转让?有形货物适用增值税,劳务服务、特许权转让则适用于营业税。编辑。

已有的观点及理由如下:

1.1认为是销售货物,应征增值税

此类研究者认为,通过网络直接发送或下载的数字产品(如电子书刊、音乐和影像等),在流转税属性上与其有形的形式,在功能用途上基本相同,在税收上应该与其有形的形式同样对待,视同货物销售,征收增值税。

1.2认为是网络服务或授权行为,应征营业税

认为在线交易中,卖方提供的并非是有形的货物,而是无形的数字产品,或者是转让、许可使用数据资料著作权的行为,应该像无形劳务或特许权转让一样对待,征收营业税。

1.3认为应该区别对待

持此种观点者认为,数字产品的性质介于有形货物和服务之间,应分类区别对待。其中像计算机软件、电子书籍等,尽管是通过网络传输,也应认定为有形货物销售。至于音乐、影像和动画之类的数字产品,依据消费者是否能通过网络合法下载并可永久性储存于储存装置内,可区分为购买有形商品或服务。近几年来,此类研究基本上处于停滞不前的状态,研究结论与以上观点大同小异,分歧和争论一直持续着。

2现有研究的评价

现有的对电子商务课税问题的研究,始终没有摆脱传统思维的束缚,在研究的视角、研究的方法以及研究的思路等方面,均存在着严重的缺陷。

2.1研究视角的时代错位

现有研究中的分歧,主要源于对数字产品认识上的模糊,即并未认清数字产品的时代属性,数字产品是知识时代的产物,已经不属于工业时代。当研究者试图用工业时代的税制,去对知识时代的数字产品征税时,发生了时代错位。

2.2研究方法的形而上学

所谓形而上学,就是指用孤立、静止、片面的观点去看待事物,认为一切事物都是孤立的,永远不变的;如果说有变化,只是数量的增减和场所的变更,这种增减或变更的原因不在于事物内部而在于事物外部。现有研究者没有摆脱传统的思维方式,把数字产品只看成是工业时代产品在形式上的变化,而没有看到其性质的改变,最终得出错误的结论。

2.3研究思路的舍本求末

现有的研究思路是对现行税制进行微调,以适应数字产品这一新生事物,着眼于怎样适用现行税制。结果陷入“数字产品属于哪种课税对象、征什么税”的细枝末节的问题中去,既浪费了时间精力又难以形成一致意见。而没有关注数字产品属性的根本变化,以及由此产生的“应不应该适用现行税制”的根本问题。

3数字产品的特征

数字产品是指用数字格式(即编码成一段二进制的字节)进行表示,并可通过计算机网络传输的产品或服务,包括计算机软件、电子期刊、各种网上音频视频产品、股票指数、电子邮件、定制服务和数据库等。数字产品作为信息产品,与工业产品有本质区别,具有显著的物理学和经济学特征。

3.1数字产品的物理特征

(1)非物质性。数字产品不同于工业经济中的物质产品,它也许只是一个方法、技术,或者是一个创意、理念,属于信息产品。其存在不具有一定的形态(如固态、液态等),不占有一定的空间,属于无形产品。

(2)可复制性。数字产品最重要的特征之一就是它们可以很容易地以低成本进行复制,即可以无限次地复制而不影响效用。而工业产品的复制,只能是再造一个“同样”的产品。

(3)可修改性。数字产品由载体的物理性质决定,其内容存在可变性。从数字产品的生产,一直到其消费的全过程中,它们随时可能被修改。在生产时、网络的传输途中、到达用户手中后以及生产商对它们进行升级,都可能造成数字产品的改变。

(4)非磨损性。数字产品一旦创制出来,就能永久存在,是名副其实的“耐用品”。不像传统的有形工业产品,会随着使用时间和频率增加慢慢磨损,直至被消耗掉。

(5)传播的快捷性。该特征是虚拟的数字产品所特有的。人们通过网络能够在极短的时间内,把数字产品传送至世界任何地方,如发送电子邮件。而工业产品只能借助各种交通运输工具进行传送,但再快的交通工具也无法与数字产品传播速度相比拟。

3.2数字产品的经济特征

(1)生产方面。数字产品没有传统意义上的制造过程和销售过程,研发后可以大量低成本复制,零库存,成本的虚化,收益的长期性,遵循边际收益递增规律,采用与工业品完全不同的定价方法。

(2)流通方面。数字产品的销售和货款的结算可以在线完成,贸易无形化,可以广泛地、快速地传送。传统的中间流通环节消失,生产消费直接接触,国际交流极为便捷,国际服务贸易持续增长。

(3)分配方面。数字产品在分配上采用更有效的技术,以一种产品或服务代替已过时的产品或服务,或通过其他方式改变获取数字产品的途径,都会导致数字产品分配与利用状况的改变。

(4)消费方面。数字产品属于经验产品、外部性商品。因其可复制性和共享性,又具有公共物品性质,在消费上有非排他性。

4基于数字产品的课税对策

在认清数字产品的物理和经济特征之后,就要纠正电子商务课税的传统研究视角、方法和思路,立足时代高度进行创新,抛开时代错位下的关于税种适用的无谓纷争,创建知识时代的电子商务新税制。

对电子商务课税实行的具体对策是:本着“简税制、宽税基、低税负、易征管”的思路,设置一个新税种,实行单一比例税率,以在线电子商务交易额为计税依据,以购买方为纳税人,以资金支付环节为纳税环节,以购买地为纳税地点。

在税收征管上,由现行控制信息流变为控制资金流。因为在数字产品的电子商务交易中,物流消失了,而资金流的控制节点少于信息流,实践可操作性更强。为此,要在买方通过金融机构或第三方支付进行电子商务交易付款环节,植入计算机程序,自动扣缴税款入库。这种自动扣缴模式,忽略对交易内容信息的监控,免除普通税务人员的人工干预,可极大地简化征管工作,且基本不损害交易者的隐私权。总之,通过在资金支付环节自动扣税,可以形成一个税制简单、征管效率高、征收成本低、完全自动化的新型电子商务课税模式。

参考文献:

[1]陈雪.数字产品研究综述[J].天中学刊,2007(4).

[2]翟姗姗.数字产品的定价策略研究[J].湖北经济学院学报,2008(2).

数字化管理特征范文第3篇

一、问题的提出

随着计算机技术与网络技术的普及和发展,数字图书馆在我国高校、政府以及科研机构都得到了有效发展。数字图书馆来源于图书馆馆藏的数字化从而充分地高效地利用图书馆信息资源。现有的图书馆资料主要是书籍、杂志、报刊、技术报告等。人们希望利用因特网把所有的数字化的资源站点连接起来,这样要管理的信息除了图书馆中的文本信息外,还希望管理博物馆、展览馆、档案馆、学术组织以及其它Web站点上千差万别的信息。

面对浩瀚无边的数字化信息使得数字图书馆关键核心技术之一的文本分类成为一个日益重要的研究领域。文本分类技术是人工智能和信息获取技术的结合,是基于内容的自动信息管理的核心技术。

二、文本分类技术的基本原理

数字图书馆是一个巨大的知识宝库。数字图书馆的服务重点是以人为主,而不是以馆以书为主。数字图书馆的特点使得其服务要深入到知识的层次,通过对信息内容的组织和加工的自动化,把资源组织成一个知识系统。文本的自动分类是为提高信息内容服务的质量而产生的文本处理技术。它们的出现使得信息内容服务出现了新的局面。

文本分类是指根据文本的内容或属性,将大量的文本归到一个或多个类别的过程。文本分类算法是有监督学习的算法,它需要有一个己经手工分好类的训练文档集,文档的类别已标识,在这个训练集上构造分类器,然后对新的文档分类。如果训练集的类别未标识,就是无监督的学习算法,无监督学习算法从数据集中找出存在的类别或者聚集。

从数学角度来看文本分类是个映射程,它将未标明类别的文本映射到已有的类别中,用数学公式表示如下:

f:AB其中,A为待分类的文本集合,B为分类体系中的类别集合

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。但是由于大量的文本信息是一维的线性字符流,因此文本自动分类首先要解决的问题就是文本信息的结构化。在模式识别领域里,把文本信息的结构化称为"特征提取"。在文本信息内容处理领域,这项工作被称为文本的"向量空间表示"。其基本流程如图1所示:

系统使用训练样本进行特征选择和分类器训练。系统根据选择的特征将待分类的输入样本形式化,然后输入到分类器进行类别判定,得到输入样本所属的类别。

三、文本分类技术在数字图书馆中的应用分析

为了提高数字图书馆中分类准确率,加快系统运行速度,需要对文本特征进行选择和提取。两者的差别在于,特征选择的结果是初始特征项集合的子集,而特征提取的结果不一定是初始特征项集合的子集(例如初始特征项集合是汉字,而结果可能是汉字组成的字符串)。特征选择、提取和赋权方法对分类结果都有明显影响。

(一)文本特征项

文本的特征项应该具有以下特点:特征项是能够对文本进行充分表示的语言单位;文本在特征项空间中的分布具有较为明显的统计规律;文本映射到特征项空间的计算复杂度不太大。对于计算机来说,文本就是由最基本的语言符号组成的字符串。西文文本是由字母和标点符号组成的字符串,中文文本就是由汉字和标点符号组成的字符串。

概念也可以作为特征项,"计算机"和"电脑"具有同义关系,在计算文档的相似度之前,应该将两个词映射到同一个概念类,可以增加匹配的准确率。但是概念的判断和处理相对复杂,自然语言中存在同义关系(如老鼠、耗子)、近义关系(如忧郁、忧愁)、从属关系(如房屋、房顶)和关联关系(如老师、学生)等各种关系。如何很好地划分概念特征项,确定概念类,以及概念类的数量都是需要反复尝试和改进的问题。

(二)特征项选择

不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个类中出现,并且分布较为均匀,因此区分度较小;而低频特征项由于对文档向量的贡献较小,因此重要性较低。

文档频次就是文档集合中出现某个特征项的文档数目在特征项选择中计算每个特征项在训练集合中出现的频次,根据预先设定的闽值去除那些文档频次特别低和特别高的特征项。

信息增益方法是机器学习的常用方法,在分类问题中用于度量特征项在某种分类下表示信息量多少,通过计算信息增益得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征项,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征项。

(三)特征值的提取

在文本分类中,我们称用来表示文档内容的基本单元为特征,特征可以是词、短语。目前,大多数有关文本分类的文献基本上采用词的集合来表示文档的内容。采用短语来表示文档存在两个缺点:第一短语的提取较困难,特别是准确的提取,需要较多的自然语言处理技术,而这些技术还不够成熟;第二采用词组表示文档在信息检索和文本分类中的效果并不比基于词的效果好,有时反而更差。

数字化管理特征范文第4篇

关键词:OCR技术 扫描录入 文献识别 文献数字化

中图分类号:G203 文献标识码:A文章编码:1008-6938(2010)02-085-05

Solutions for Mass Literature Digitization

Su YunZhang QingLai (School OfManagement , Lanzhou University,Lanzhou,Gansu,730000)

Abstract:In this paper, a solution is proposed to input mass literature quickly into computer. First of all, through the comparison among the four kinds of data collection methods----keyboard entry, by-hand input, voice dictation, and scan input---scan input is found to be the only choice of mass information processing.Second, it is a review of the OCR technology and analysis of current situation. Finally a solution of OCR digital processing plant is put forward, that is to say, mass literature digitization can be perfected by text automatic input, pipeline management, quality control, personnel management, and system management.

Keywords:OCR technology;scan input; literature identification; literature digitization

CLC number:G203 Document code:AArticle ID:1008-6938(2010)02-085-05

1 引言

五千年的中国文化遗留下极其丰富且数量庞大的历史文献,这些文献主要保存形式以甲骨、简犊和纸张作为载体,通过编纂引得、通检、索引和汇编等工具书达成文献整理和查询的目标,由于文献数量巨大和人力有限的矛盾,经过系统整理和方便的检索工具非常稀缺,加之受存储空间的限制,许多年代久远的孤本书、善本书已出现了纸张脆弱、字迹变色、书页脱落和破损发霉等现象,很多出土的甲骨、简犊和纸张也出现了腐蚀和霉烂的状况,严重影响了文献的使用和保存寿命,文献的数字化迫切性已成为信息工作者的当务之急,图书馆和档案馆应该积极顺应网络时代的潮流,运用计算机相关的数字化技术,对文献进行加工和处理,建立书目数据库、全文数据库和综合检索系统,并通过光盘和网络等途径进行信息的传播。本文针对该问题提出了面向海量文献信息数字化的处理解决方案,尤其对文字的批量识别提出了系统化的解决途径。

2 海量文献数字化处理的现状

2.1 传统的海量文献数字化技术及比较

如何将海量的文献资料快速录入计算机是文献数字化研究工作的重要内容,而文献数字化的瓶颈就在于如何将海量的文献录入计算机的方式方法,就传统处理技术而言,数据的录入方法有键盘录入、手写录入、听写录入和扫描录入。

(1)键盘录入法。键盘录入法有阴阳码输入法、郑码输入法、形象码输入法、汉码系列输入法、智能二笔输入法、双笔码输入法、汉正码输入法等,总共不下几十种,最常用的是各式各样的五笔字型和拼音输入,其中五笔输入法常用的是王码五笔、陈桥五笔、念青五笔和极点五笔等,任何一种五笔输入法只要掌握文字的拆分规则就能使用;拼音输入法常用的有智能ABC、拼音加加、紫光拼音、搜狗拼音、中文之星智能狂拼、三好拼音、极点拼音、五万拼音、递推联想拼音等,只要会拼音就会输入,这两者录入速度不分伯仲,关键在操作人员的熟练程度。国际专业录入师的打字速度是在240字/分钟左右,一般打字员的速度是50~70字/分钟,这种录入速度相对海量的文献资料是一种效率极低的信息数字化处理方式,不但费时费力,而且资金耗费巨大,会造成大量文献资料的积压。

(2)手写录入法。手写录入法亦称为手写笔输入法,主要有台湾的蒙恬系列手写笔、大恒笔才子手写笔、汉王大将军手写笔和紫光绘写大师等,手写笔是由硬件和软件两部分构成,硬件部分包括电子手写笔和写字板,软件部分是汉字识别系统。手写输入法的使用比较简单,录入员只需用手写笔在写字板上书写笔划清晰的汉字,写字板中内置的高精密的电子信号采集系统,就会将汉字笔迹的信息转换为数字信息,然后传送给软件系统进行汉字识别。汉字识别系统的作用是将硬件部分传送来的信息与事先储存好的大量汉字特征信息相比较,从而判断写的是什么汉字,并通过汉字系统在计算机屏幕上显示出来,手写输入系统的难点在于汉字笔迹的识别,因为每个人的手写字体不一样,所以汉字笔迹比较系统就必须能允许一定的模糊偏差,才能做到较高的识别率,但是手写笔的最快录入速度仅有20~40字/分钟,显然不适合海量文献信息的录入,但对录入手绘图形图像十分有效。

(3)语音录入法。语音录入就是听写输入法,较之键盘和手写输入,既快速又方便,速度是键盘输入的2~3倍,是手写输入的6~8倍。硬件设备只需带声卡的多媒体计算机和无噪音的麦克风。从技术层面而言,实现语音识别就是让计算机识别和理解人类语言的过程,是把自然语音信号转变为相应的文本。在语音识别过程中,首先要将人类说话的声音由模拟的语音信号转换为数字信号,然后从信号中提取语音特征,同时进行数据压缩,输入的模拟语音信号要进行预处理,建立识别基本单元的声学模型和进行文法分析的语言模型,计算机根据识别系统的类型选择能够满足要求的识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,按照一定的准则和测度与参考模式库中的模型进行比较从而得出识别结果。语音输入法已经出现十余年,但由于计算机处理速度的限制,并没有形成气候,后来随着计算机CPU主频的不断提高,出现了许多以IBM语音录入为内核的软件,例如Windows Vista就内置了语音录入软件,但要快速高效能满足海量文字录入的要求,就必须使用专业的语音输入软件,例如IBM公司的ViaVoice语音识别专业软件、Scansoft公司的Dragon Naturally Speaking Preferred语音识别软件等。这里需要强调的是语音录入法对录入员的标准普通话水平的要求很高,由于中国是方言非常丰富的国家,这种录入法很难推广;而且语音录入时周边环境不能有噪音,即对环境要求过于苛刻。

(4)扫描录入法。键盘和手写录入面对的是漫长和繁重的工作,听写录入受到方言和周边环境噪音的影响,就现有技术而言,海量文献录入的唯一的选择就是扫描录入法,速度可以达到每分钟6000字,具有其它录入方法不可比拟的优势。扫描录入的英文缩写是OCR(Optical Character Recognition),就是让计算机认字和实现文字自动输入。它的工作原理是通过扫描仪或数码相机等光学输入设备获取文献纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,是一种快捷、省力和高效的文字输入方法。具有以下三大优势:时间上,扫描录入法速度快和效率高,是人工录入的数百倍,甚至数千倍;经济上,扫描录入法节省了大量人力资源开销和降低了录入成本;准确性上,扫描录入法的录入准确率远高于其它人工录入法。

文献扫描录入的必备的硬件设备是扫描仪,主要有平板扫描仪、多功能一体机、高速扫描仪和网络扫描仪等,常用品牌有全友(Microtek)、爱克发(AGFA)、清华紫光(Uniscan)和惠普(HP),常用幅面是A4、A4加长、A3等三种,如果扫描报纸、地图等,就需要A1、A2幅面的平板扫描仪,数据海量处理最常用的是高速滚筒式扫描仪,而高速扫描技术是依赖计算机CPU的性能来提高识别率和识别速度。最为常用的中文识别软件有清华紫光文通信息技术有限公司开发的TH-OCR(TH是TsingHua的缩写)、北京汉王科技股份有限公司研制的汉王文本王;其它优秀的识别软件还有:以我国战国时期“掌章奏文”官职命名的尚书OCR软件、以我国古代绘画颜色命名的丹青OCR软件、发明毛笔的古代大将命名的蒙恬OCR软件等等; [1 ]外文识别软件的普遍功能要比中文识别软件要强大,尤其对书籍、报刊的版面还原技术要强大得多。常用的有俄罗斯软件公司开发的ABBYY FineReader Professional、美国IGS公司研制的ReadIRIS Pro,此外还有能够识别114种语言文字的Recognita软件、能够将识别文字发音朗读校对(Text-to-Speech)的OmniPage软件、发明复印机的施乐公司推出的复印和识别一体化的XEROX TextBridge软件。

2.2 基于OCR扫描和识别的海量文献数字化处理现状与分析

让机器代替人认字并记录,是人类很久以来的梦想。早在20世纪20年代,西方就开始了字符自动识别的研究。有文献可考的最早机器字符识别系统是德国的科学家陶杰克(Tausheck)的“阅读机”,1929年这项发明获得了德国专利;几年后,美国科学家汉德尔(P・W・Handel),也提出了利用技术对文字进行识别的想法,研制了“统计机”的类似机器,也获得了美国专利。自此之后,人类经过几十年的不断努力,使得OCR技术渐渐成熟,从最初的机械识别模式一直发展到今天利用抽取图像的数字化特征进行识别的电子模式。

相比英文OCR识别,汉字的识别要困难许多,这是由于英文是由几十个字母符号组成的文字,而“方块符号”的汉字字库要比英文字母表庞大近千倍,难度可想而知。我国在上个世纪70年代末就开始了这项技术的研究,至80年代中期,可识别上万汉字,识别率在90%左右,尤其是1987年《汉字识别的特征点方法》的问世是一个里程碑,这种方法是以汉字字形结构的统计特征划分为汉字笔划上的特征点和背景处的关键背景点,并基于这个理论,推出了“印刷体汉字文本识别系统”,这个系统的研制成功标志着我国在印刷体汉字的识别技术研究方面已取得了实用化的突破;进入90年代之后,随着863项目在内的汉字识别系统逐渐成熟,不少研究单位相继推出了中文OCR产品,主要有清华文通(TH-OCR)、北信(BI-OCR)、中自(ICR)、沈阳自动化所(SY-OCR)、北京曙光公司(NI-OCR)等,这些系统均可以实现中英文混排,宋体、楷体、黑体、仿宋体、繁体等多字体、多字号的混排识别,文字识别率可达到95%以上。特别是21世纪的近十年,OCR识别技术随着扫描仪的普及得到了飞速的发展,扫描和识别软件的性能不断强大并向智能化升级发展。[2 ]

一般说来,传统的OCR扫描和识别软件主要功能是通过以下六大过程来实现,即影像获取、影像前处理、文字特征抽取、比对识别、人工校正和结果输出。其中,①影像输入就是将需要OCR处理的文献资料通过光学仪器(扫描仪、数码相机等)录入计算机;②影像前处理是OCR系统中,须解决问题最多的阶段,从得到一个不是黑就是白的二值化影像,或灰阶、彩色的影像,到独立出一个个的文字影像单元的过程,都属于影像前处理,这其中包含了影像正规化、去除噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处理;③文字特征抽取可以说是OCR系统的核心,用什么特征、怎么抽取,直接影响识别质量的好坏;④比对识别是指当文字特征抽取结束后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容包含预先对所有欲识别的文字的集合中元素采用文字影像单元一样的特征抽取方法抽取特征所得的特征。通过比对,从而确定文字影像单元所对应的文字。由于OCR的识别率不可能达到百分之百,为了提高识别的准确度,字词后处理过程就必不可少了,它利用比对后产生的识别文字与其可能的相似候选字群,根据上下文的识别文字找出最合乎词义的词,对识别结果进行更正,例如识别出“找们”,在词库中找不到这个词,而“我”是“找”的相似候选字,因此很自然的将“我”取代“找”,而成“我们”;⑤人工校正是保证OCR质量的最后阶段,也是最有效、最直接的阶段,在这个阶段要求录入人员花费精力和时间,去直接更正甚至寻找可能是OCR出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,合理、有效和便捷的人工校正的操作流程及其功能,也很大程度影响着OCR的处理效率和准确性;⑥结果输出就是将OCR产生的结果将按照要求提交给用户。[3 ] [4 ]

基于以上的过程,这种传统的处理方式一般采用一台告诉扫描仪和多台计算机相连接,把扫描的文献资料分派到不同空闲的计算机上进行识别处理,再将识别结果返回整理。这是一种串行的工作方式,虽然在一定程度上提高了扫描和识别效率,但扫描和识别协调同步很难实现,而且辅助工作量极大。

3 面向海量文献的数字化处理系统设计与分析

为了满足书籍、报纸期刊、报表票据、历史档案等文字录入的需求,也为了满足资源性网站和数据库开发对数据的需求,针对银行、税务、工商、医院等行业尤其是图书馆、档案馆对文字识别的需求,本文提出了OCR数字化处理工厂的一揽子解决方案。

3.1 系统的总体设计

本文提出的数字化处理工厂系统是应用OCR技术、实现工业化流水线管理方式的大型Internet系统设计。该系统设计通过强大的网络功能实现流水线方式的数据加工,并通过网络供千千万万个用户享用。实现数字化处理工厂系统硬件需要:一台小型服务器作为数据服务器和主域控制器,管理多台终端;高速扫描仪和微软的操作系统的服务器;大容量硬盘或磁盘阵列的存储设备(视加工规模选用);磁带库或光盘库的备份设备(选用)。实现四大功能,即文字自动录入、流水线管理、质量控制和员工管理、系统管理(见图1)。

3.2 系统功能与模块介绍

整个系统围绕两个互相联系的员工管理和OCR扫描文件数据库展开工作。员工管理数据库由员工信息表、工种信息表、员工考勤表、员工工作量表、班次表、工资管理表等构成一个完整的员工资料库。员工依流程指定的步骤登录、考勤、申请工作、执行操作并接受管理监督。管理人员通过简明友好的系统管理界面可以方便地查询数据、备份数据和系统维护。该系统还提供安全日志供管理人员查询。OCR录入资料数据库经由扫描录入、图像处理、版面分析、识别、纵校、横校、版面还原等工序处理最终形成。其中在信息传输上采取申请任务方式与分配任务方式相结合使用。其中申请任务方式是用户完成一件工作包的同时查看是否有已经分配的工作包,如没有,则申请另一个工作包;分配任务方式是由管理员分配工作包给每一个员工;为对此流程进行有效管理,建立了原始工作包表、工序跟踪表、返工单表、员工工作分配表、工作包表等。

(1)文字自动录入功能模块。采用在OCR领域领先的成熟文字自动录入技术,实现包括横版、竖版、简体、繁体各种版式的古籍、报刊杂志、公文档案、报表或票据和现代书籍的自动图像预处理、版面分析,能识别中文简体、繁体、英文及混排和多字体多字号文档。

(2)流水线管理功能模块。采用生产流水线管理方式,根据OCR技术和操作的特点,将生产过程划分成以下几道工序:①文献资料整理:为了便于扫描和以后的查询、检索而进行的文献分类、拆装、命名、编号等。②扫描:扫描是将纸质文献图像输入计算机的过程。一般把相关按文献页码顺序扫描,在扫描质量控制程序自动检测并修正后,自动保存到数据库中。③图像处理:为了提高识别率,对图像进行“消蓝去污”的处理,即去掉图像上影响识别率的噪音如麻点、下划线等,图像质量控制程序自动监测图像处理质量。④版面分析:能自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,并对自动版面分析结果加入手工干预。 ⑤识别:把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、表格、中英文混排,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。⑥纵向校对:具有很强的查错、纠错能力。纵向校对是将一个图像或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作人员发现错误和修改。⑦横向校对:这是传统的人工校对方法,操作人员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不高的文字。⑧版面还原:将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。⑨数据入库:版面还原数字文档的保存。

(3)质量控制和员工管理功能模块。质量控制是为了保证和控制系统的录入质量而采取的一整套方法与措施。主要是在各工序中加入对员工工作完成情况及差错量的监控和工作量的计算,以求将整体差错量控制在万分之二以内。员工的工作态度将会直接影响到数据录入的质量和工作效率,要使员工保持一种积极的工作态度,必须有好的管理制度和客观的评价标准和依据。该系统可以详尽地提供员工考勤情况和工作质量数据,并对员工的工作情况给予公正的评估。员工管理系统在整个系统中处于支配地位。该部分由考勤管理、工资管理、质量控制、工作分配、返工单管理和建立用户等几个模块组成。其中考勤管理是记录各员工的出勤、缺勤状况;岗位管理是记录各岗位的工作分配和员工的工作量、差错量(质、数量的差错要求控制在万分之五以内)的状况;工资管理是根据员工的考勤、工作量和差错量的情况,发放员工的工资并列出明细帐目表。

3.3 系统功能优势与创新分析

本文提出了一个基于大型的Intranet网络系统实现系统框架,可将汗牛充栋文献进行数字化录入识别处理,是一个包含成千上万的加工数据资料和员工详尽的工作信息数据库系统。这样的创新,将单独的扫描识别通过整合方式组成了完善的数据加工生产工厂。

(1)采用生产流水线管理方式,改进了传统的串行的工作方的效率低下,将冗长、复杂的数据生产过程合理地划分成若干道工序,每道工序操作简便,合理安排工作岗位,并行操作,生产效率和质量得到了3~4倍的提高。并且可以任意确定工艺流程操作顺序和组合,适于不同种类和不同要求的数据资源加工,实现了单机资源数字化过程和机群间高效率的相互协同作业。

(2)采用分布式操作,管理员可通过计算机网络实现对系统的远程管理,大大增加了管理员对数字化加工系统进行管理的灵活性。加之服务器对客户端的消息响应采用队列式管理,服务器运行会更加稳定和可靠。

(3)文字自动录入可实现批量扫描和识别,在不点击鼠标的前提下,实现数据自动命名、自动存盘、自动识别和自动校对,并将处理文件自动纠偏、去噪、OCR和压缩存储,极大的节省了人力资源。

(4)人工操作与后台自动运行相结合,把一些可由计算机自行处理的工序设置为后台自动运行,从而减少了人为造成的错误。

(5)数据质量得到了大幅度的提高,实现了数据检查、监督和协调的自动化,完善了系统权限管理和数据安全管理,员工工作效率得到了公正的统计和评估。

4 结语

概而言之,本系统的设计为数字图书馆、档案馆、政府机关等不同机构的大量文字、图表的自动录入提供了一种切实可行的处理方案,更适应网络时代建设网站过程中对文字和图像的需求,具有巨大的社会效益和经济效益。

参考文献:

[1]张烯中.汉字识别技术[M].北京:清华大学出版社,1992.

[2]任永芳.中文OCR与图书资料的再制作[J].高校图书馆工作,2001,(3).

[3]迟春佳.OCR技术及其在高校图书馆信息资源数字化建设中的应用[J].中国科技信息,2007,(7).

数字化管理特征范文第5篇

关键词:GIS 数据采集;数字化测绘;关系

中图分类号:P237文献标识码: A文章编号:

地理信息系统由地理数据、GIS 软件、计算机硬件和用户4部分组成,其中地理数据犹如人体中的血液和汽车中的汽油,在地理信息系统中具有非常重要的基础作用。所以,地理信息调查或 GIS 数据采集是地理信息工程中一项重要的工作,是大部分地理信息工程中工程量最大的子工程。虽然为地理信息系统采集数据和数字化测绘都采用相同的测量或定位技术,但 GIS 数据采集并不等同于数字化测绘。所以在 GIS 数据采集工作中,应从管理地理对象或地理信息的角度抽象和测量地理实体,并组织和管理其数据。总之,深入探讨二者的相同之处和不同之处,对于当前广泛开展的地理信息工程,尤其是 GIS 数据采集工作具有重要的指导作用。

为地理信息系统采集地理信息或数据的工作统称为地理信息调查,又称为 GIS 数据采集。受传统测绘业务和惯性思维的影响,很多测绘专业技术人员都把 GIS 数据采集视为数字化测绘,尤其是为各种城市地理信息系统采集数据的工作。例如城镇地籍调查和城市部件调查等都是典型的GIS 数据采集项目,却都被视为数字化测绘业务,结果出现了很多诸如数据不符合相应地理信息系统要求等不应该出现的问题。本文在总结笔者长期从事地理信息工程和测绘工程经验的基础上,深入探讨了 GIS 数据采集与数字化测绘之间的异同之处。

1 GIS 数据采集与数字化测绘的相同之处

GIS 数据采集与数字化测绘是两项性质不同的业务,但它们之间也有很多相同之处,具体说来包括以下两个方面。

1.1 对象相同

GIS 数据采集与数字化测绘的对象都是地球表面上的地理实体,虽然二者的侧重点不同( 前者侧重于某一行业或某种专题地理实体,后者则侧重于全部的地理实体) ,甚至有时对同一个客观实体的命名也不同,但二者都需要测量地理实体的空间位置和几何形状。

1.2 技术相同

GIS 数据采集与数字化测绘都使用全站仪、GPS等测绘仪器,都采用解析法等测量和定位方法,都是在某一空间参考基准或坐标系统下开展工作,可以说GIS数据采集与数字化测绘采用相同的测量或

定位技术。

例如,在城市部件调查中,需要在与调查底图同一个空间参考基准下开展城市部件空间数据的采集工作,而城市部件的空间位置与几何形状的采集既可以用全站仪采集,也可以用 GPS 接收机采集,且大都用解析法采集。同样,在城镇地籍调查中,界址点测量是城镇地籍调查采集宗地空间数据的基本工作,通常也都用全站仪和 GPS 接收机,也都采用解析法测量。

2 GIS数据采集与数字化测绘的区别

GIS数据采集与数字化测绘虽有以上相同之处,但二者在工作目的、工作内容、选取和抽象的原则、工作难点、精度要求以及数据组织与管理的方法等方面有着明显的区别。

2.1 工作目的不同

GIS 数据采集与数字化测绘都需要采集与地理实体定位和形状等几何特征有关的空间数据,但前者是为了管理地理实体,后者则是为了在地图上表达地理实体。

GIS 数据采集是为地理信息系统采集数据的工作,地理实体作为地理信息系统管理的对象具有明显的空间分布特征,其定位和形状方面的信息是重要的地理信息,因此,需要采集地理实体定位和形状方面的数据,作为地理信息系统管理的重要内容。而数字化测绘则是测量和表达地理信息的技术,它测量地理实体特征点的位置,并将这些数据可视化,绘制成地图,其目的在于反映和表达地理信息。

2.2 工作内容不同

GIS 数据采集的地理信息不仅包括空间数据,也包括属性数据。数字化测绘仅仅采集地理实体的空间数据。例如,在城市部件调查中,不仅要采集城市部件的空间数据,还需要调查其管理部门、权属部门、维护部门和状态等属性信息。在城镇地籍调查中,除了要测量界址点的坐标来确定宗地的空间位置和面积外,还需要调查宗地的权利人、权属性质、土地利用类型和四至等属性信息。

2.3 选取和抽象的原则不同

测绘地图,尤其是测绘大比例尺地形图时,选取地物的原则: 一是地物的空间大小,二是地物的重要程度。通常情况下,比较大的和比较重要的地物都会被选取并绘制到地图上,而抽象的原则则完全是根据地物的空间大小与地图的比例尺来确定的,即空间尺寸大于比例尺精度的地物通常都会被依比例尺表达,而空间尺寸小于比例尺精度的地物通常都会被不依比例尺或半依比例尺表达为点状符号或线状符号。

采集 GIS 数据时,地理对象的选取原则完全取决于该地理对象是否是系统管理的对象,地理对象的抽象原则完全取决于系统管理的需要,而不管它的空间尺寸和重要程度。例如,在数字化城市管理

系统中,建筑工地再大也被抽象为点,而绿地再小也被抽象为面。

2.4 工作难点不同

GIS 数据采集的难点是属性调查,而数字化测绘的难点是地物和地形的抽象及表达。地理实体的属性信息不像其空间特征那么直观,需要到相关的部门查阅资料和询问相关的人员,而且要保证调查得到的信息必须完整和准确。

例如,在城市部件调查中,由于城市基础设施和公用设施建设的不规范或多样化,许多城市部件很难界定其名称,这样就更难以调查其他属性信息了。在数字化测绘工作中,地物和地形本身的形状就很复杂,从现实中抽象出其空间形状和特征点并测量其坐标就是一件困难的事情,而更困难的就是在地图上根据其特征点用地图符号将其表达出来,尤其是复杂地形的表达,以及复杂的综合地物的表达。例如,在城市大比例尺地形图测绘工作中,由于建筑和道路设计的多样化,许多建筑物和道路设施不仅难以抽象测量,更难以在图上用符号表达。

2.5 精度要求不同

GIS 数据采集和数字化测绘对地理实体定位测量的精度要求通常是不同的,与同一比例尺地形图测绘精度相比较,有些 GIS 数据采集精度要求较高,有些则很低。

在城市部件调查中,数字化城市管理系统对城市部件空间数据的定位精度与其调查底图的测绘精度相比,是非常低的。在城镇地籍调查中,城镇地籍信息系统对界址点的定位精度与其调查底图的测绘精度相比,则是比较高的。城镇地籍测量对界址点测量的点位中误差的要求为不大于 ±0.05m,是其调查底图1:500 地形图对地物特征点点位中误差要求的五分之一。

2.6 数据组织和管理方法不同

地图数据与 GIS 数据是两个相近的概念,地图数据强调对地理信息的描述或地理实体的表达,是以制作地图为目标的;而 GIS 数据则强调对地理信息或地理实体的管理,是以建立管理系统为目标的。虽然二者的空间数据都是几何数据,且生产方式相同,有时把地图数据与 GIS 数据都称为空间数据,但其组织方式和管理方法却不完全相同,前者通常采用面条数据或实体数据结构,而后者通常则使用拓扑数据结构,以便对地理实体的空间位置关系进行分析。

地图主要是用地图符号表达地理实体特征的,所以,地图数据主要表达地理信息的各类地图符号数据,其最大特点是只有几何数据(或只有几何数据及其属性编码),没有属性数据,是用地图符号表达地理实体属性特征的。而 GIS 则是用属性信息表达地理实体的属性特征,所以,GIS 数据由两部分组成,一部分是描述地理实体几何特征的几何数据,另一部分则是反映地理实体属性信息的属性数据。GIS 数据可以根据其属性数据将几何数据符号化后转换为地图数据,只是丰富了 GIS 数据,但它仍与地图数据有明显的差别。空间数据和属性数据因为特性不同,其管理方式也不相同,空间数据通常都是用文件方式进行管理的,而属性数据则是用数据库方式管理的。