地理信息数字化描述方法(精选5篇)

首页文章中心学术期刊科普订阅 SCI期刊 SCI发表

会员中心购物车(0)

首页 > 文章中心 > 地理信息数字化描述方法

地理信息数字化描述方法

时间：2023-11-24 17:33:23

地理信息数字化描述方法

地理信息数字化描述方法范文第1篇

1．本体描述语言的发展过程

1．1可扩展标记语言XMLXML是由W3C于1998年2月的一种标准，是由SGML和HTML二者派生出的语言。XML具有强大的表达能力。XML为信息表示和信息交换提供了很好的中介手段和标准，对于不同数据链系统的格式化消息，XML都能对其进行描述。另外，XML还支持语法互操作性，对于不同数据链的消息形成的XML文档，XML解析器都可以对其进行分析。但是，XML及其模式规范（DTD/XMLSchema）只提供固定的语法描述，并未考虑信息的语义特点，因此缺乏对语义互操作的支持。

1．2资源描述框架RDFRDF是描述结构信息的一种形式化语言。RDF的目标是让应用程序能够在Web上交互数据，并且保留它们原有的含义。XML文档本质上生成了一个基于嵌套标签的树结构，很适合描述结构化文档。与XML不一样，RDF是基于有向图的数据模式，一个RDF文档描述了一个有向图。在数据链格式化消息的集成过程中，采用图比采用树更合适。因为RDF图可以简单地合并在一起，其结果只不过是得到了一个大一些的图。而XML文档合并起来相对困难。因为两个树结构的简单合并不再是一个树，所以在合并多个输入时，仅仅为了得到一个格式良好的XML文档，就必须采取额外的措施。所以多数据链消息集成更适合采用RDF图。作为一种本体表示语言，RDF和RDFS可用来表达某些本体知识。然而，RDFS缺少许多其它的特征（如属性的范围、属性的特殊特征、类的布尔组合等）。

1．3网络本体语言OWLOWL是在DAML+OIL网络本体语言的基础上改进的。OWL弥补了RDF+RDFS的许多不足，成为公认的Web本体语言标准。OWL添加了更多的用于描述属性和类的词汇，例如类之间的不相交性、基数、等价性、属性特征、以及枚举类，通过提供更多具有形式语义的词汇，明确表示了词汇表中术语的含义以及术语间的关系，使其描述的内容在机器可理解性方面要强于XML、RDF和RDFSchema等。

2．多链消息集成方案

2．1格式化消息的基本概念格式化消息是一种面向比特的、格式事先规定好的报文，它由多组有序排列的字段组成，在每个字段内，被传递的具体信息按指定的格式转化成规定的二进制值[7]。消息有固定消息格式和可变消息格式两种。本文只考虑固定消息格式情况，并以典型的J系列消息为例，具体介绍消息的本体表示方法。J系列消息一般由1～8个消息字组成，每个消息字包括5bit奇偶校验位和70bit数据位。消息字分为3种，即初始字、延长字、继续字。J系列消息的编号方式为Jm.n。Jm.nI用于表示Jm.n消息的初始字编号。Jm.nEx用于表示Jm.n消息第x个延长字的编号，其中x是从0到6的整数。Jm.nCx用于表示Jm.n消息继续字x的编号，其中x是从0到31的整数。一条消息必须包含一个初始字，可能包含0或多个延长字，可能包含0或多个继续字，总消息字数一般不会超过8个。每个消息字包含多个元素。

2．2消息集成方案多数据链消息集成方案如图1所示。该方法可分为三步：第一步，依据消息标准中对消息格式的定义，将各类数据链消息描述成XML文档，并由该XML文档生成相应的XMLSchema。XML很适合用于描述格式化消息，文献[6]和[8]都对采用XML来描述数据链消息的方法进行介绍。得到消息的XML描述文档后，采用Schema挖掘算法生成相应的XMLSchema。第二步，将上一步得到的XMLSchema映射为OWL模型，然后使用该OWL模型指导从XML实例文档到OWL文档的转换。以XMLSchema为输入，将XMLSchema中的组件映射到一个OWL模型，从而获取XMLSchema中关于XML文档的结构、对元素的约束等方面的语义信息。使用该OWL模型指导从XML文档到OWL文档的转换，即可得到该实例消息的OWL文档。第三步，依据本体库和映射规则，将该OWL文档转换成全局OWL文档。得到全局OWL文档后，按照与应用平台的接口协议，将其转换成相应的接口报文即可。需要事先构建出所有可能参与集成的数据链的消息局部本体，然后对各数据链消息的局部本体集进行提取归纳，形成全局本体，并建立局部本体与全局本体之间的映射表。

2．3集成报文的优势在战场通信环境受限的条件下，为了保证数据链系统能实时、可靠、高效地传输作战信息，这就要求消息格式必须要有很高的效率。消息标准制定时，为保证数据的传输效率，就难免顾此失彼。这导致消息标准往往不便于指控和武器平台进行处理，与作战关联性差。按此方法，对于收到的来自任意数据链的任一消息，都可以通过该数据链消息集成方法将其转换成全局OWL本体，之后再将其转换成与作战结合紧密的接口报文，此报文不必再受通信传输的限制，因而可以完全依据作战需求来设计。因此该方法不仅可以解决多数据链系统信息交互困难的问题，还可以解决目前数据链消息与作战关联性不紧密的问题。

3．结束语

地理信息数字化描述方法范文第2篇

关于水产信息资源导航库建设,作者曾在《论水产信息资源导航库建设———以集美大学图书馆水产信息资源导航库建设为例》一文就学科范围、系统内容以及信息资源采集的原则、方法和途径的确定等作过探讨,但本人认为,水产信息资源导航库建设还存在着诸如资源组织的描述方式、排列方式、浏览方式以及网页建设等相关问题。这些问题在导航库的建设中同样需要重视,而且处理的好坏将直接影响到导航库的质量和使用效率。为此,本文谨结合集美大学图书馆水产信息资源导航库建设的实际经验,对这些问题进行讨论。 1资源组织学科资源导航库的作用在于将网络信息资源按学科以及一定的分类标准对信息资源进行收集、分类和序化。因此,合理的资源组织乃是导航库导航效率的重要保证。导航库资源的组织主要是通过分类方式、描述方式、排列方式和浏览方式来实现的。 1.1描述方式很多信息的获取并非通过检索馆藏中的实际对象,而是检索对象的描述性元数据。学科资源导航系统是以学科为单元,对网络上的相关学术资源进行搜集、分类、描述、组织和序化,建立分类目录式资源组织体系、互动式用户查询系统和数据库,并于网上,为用户提供网络学科信息资源导引和检索线索的导航系统。它提供对每一学科学术资源的简单描述和链接,以便给用户以简要的信息,供选择是否访问时作参考。学科导航需要对每一资源进行简要描述,这种描述既要清楚明确,又不能太复杂。DC元数据是为简单描述网络资源而创建的元数据集,它简单、易于理解、可扩展,是一个良好的网络资源描述元数据集,用它来规范学科导航数据库中的字段和描述模式,是既科学又具有发展远景的尝试。 DC元数据集是1995年以来,由OCLC的StuartWeibel所领导的国际小组制定的一套可以用于数字图书馆资源简单描述的元数据集。主要由以下15个元素构成:(1)题名:创建者或出版者对资源的命名。(2)创建者:主要负责资源智力内容的个人或组织(文字作品的作者,视觉资源中的艺术家、摄影师或插图画家)。(3)主题:资源的题目。通常指描述资源主题或内容的关键词或短语。提倡使用规范化词表和正式分类体系。(4)描述:资源内容的文字描述,如文档类对象的文摘和视觉资源的内容描述。(5)出版者:负责将资源转换成当前形式的实体———如出版社、大学的院系或公司实体。(6)其他责任者:没包括在创建者元素中,但对资源作出了显著智力贡献的人或组织,他们的贡献仅次于创建者。其他责任人的例子有:编辑、誊写员和插图作者。(7)日期:与资源的制作或公布相关的日期。(8)类型:资源的类属,例如主页、小说、诗歌、工作底稿、未定稿、技术报告、散文、词典。(9)格式:资源的数据格式(用于反映资源显示和处理所需要的软件和硬件)。(10)标识:用于唯一标识资源的字符串或数字。例如,标识网络资源的URL和UMN。(11)来源:派生当前资源的辅助资源的相关信息。(12)语种:书写资源智力内容的语言。(13)关联:辅助资源及其与当前资源联系的标识符。这个元素允许在相关资源与资源描述之间建立连接。作品的版次和书的章节是关联的两个例子。(14)覆盖范围:资源的空间位置和持续时间特征。(15)权限:一个权限管理声明,一个连接到该声明的标识符,或一个连接到资源权限管理信息的标识符。一般来说,选择DC元数据集中的题名、描述、出版者、标识、语种等5个字段就可以让用户清楚地了解到资源的名称、内容、地址、范围、版权等方面的信息;这些信息大体上可以反映资源的基本情况及其可靠性、权威性,可以较全面地提供资源选择参考信息,完全能够起到导航作用。另外,为了能让用户更加快速地决定该网站是否有访问的价值,有些学科资源导航库还对网站有无登录权限、网站资源评估、点击次数、推荐程度、数据更新日期、推荐人、责任人等作了更进一步的描述。 1.2排列方式相同主题或类型信息的排列方式主要有以下几种:字顺排列、拼音排列、按地区排列、综合几种排列方法的混合排列或者根据自身需求进行的排列。集大图书馆水产信息资源导航库在收集读者意见后,采用的是按拼音结合地区进行混合排列。 1.3浏览方式导航库的浏览方式可以采用分类的方法显示学科或专题资源信息。用户进人导航库后,即可按照学科主题树或者资源类型找到所需的信息。但是每个图书馆采用的显示方式也不尽相同。有些馆是将相同类型的信息都放在同一页内,通过移动滚动条来寻找,或是给每个主题或资源类型做个书签,通过超链接跳到所查找的信息;有些馆是采用分页显示,每页显示10或20个网站,不同类型的信息则通过超链接实现转换。集大图书馆导航库根据读者反馈,采用的是分页显示方式。 2网页建设导航库网页建设的目的是充分发挥网络和网络资源的功能,利用其信息优势,使重点学科的教学科研人员能通过网络获得相关文献信息及服务。因此要求其应用方便、技术新颖以充分提高网页的使用效率。网页制作过程中还应注意画面协调、层次合理、通用技术的应用等问题。集大图书馆水产信息资源导航库在网页设计、制作过程中,首先确立了“内容全面、层次合理、画面协调、使用方便”的原则。“内容全面”,就是在网页中除了包括集大水产信息资源导航库所确定的15个系统内容外,还包含了一般网页应有的日期显示、导航库更新日期、与本馆资源(如超星水产类数字图书、集大图书馆其他重点学科资源等)的链接。 “层次合理”,就是将一些重点系统内容凸显化,将它们放在主页的突出位置。如“标题新闻”是报道与水产相关学科研究现状和最新进展的栏目,也是读者最关注的栏目之一,因此,在整个主页协调的前提下,将其调整在主页的中心部位;“教学研究”、“学会组织”等重要的栏目也将其用醒目的标识列于“标题新闻”的两侧。“画面协调”,就是网页采用统一的风格,从总体布局到使用的图形、文字、色彩都融入了“海洋”这个主题,力求清新、明了。“使用方便”,就是使所有的文本制作都方便用户浏览;各页面之间都设有切换键,同时制作站内搜索;未采用滚动条、左右拖动等制作方式,同时也尽量采用占用空间较小的图像,以保证传输速率和使用效果。其次,为了方便读者快捷地找到所需信息,还制作了一个站内搜索程序。它是基于ASP和数据库技术,需要Windows2000Server版本的IIS支持。ASP脚本程序在服务器端运行,负责响应客户端的查询和数据库的连接,使本程序支持全文查询,实质上是提供了导航库的数据库版本。系统三层结构如图1所示:各层完成的主要功能如下:(1)浏览器:最终用户使用的接口,用于向Web服务器提交查询和查询结果的显示。(2)Web服务应用程序:根据用户查询字段与后台数据库进行连接、查询,并把查询的结果投递给终端用户。(3)数据库文件:是整个导航库的核心,存储了所有备查询的网站信息,由一个站点描述表组成的。#p#分页标题#e#

地理信息数字化描述方法范文第3篇

关键词：心理预期；信息传播；图片；文字

1引言

心理预期也可以称为预期推理，即建立在背景知识基础上的对可能发生事件的内隐期望，是受众根据当前正在加工的信息来预测未来的事件”。对预期的研究对于理解人类的决策规律具有重要意义，因为决策的前提就是对被决策的事物形成一个预期，任何决策都是在一定的预期之下进行的，预期在个体的决策机制中担负着重要的角色，可以说它是影响受众做出决策的关键因素。

预期是基于信息的推理，影响心理预期的因素可分为信息因素和被试因素两个方面。信息因素包括信息的含量、信息的传递及呈现形式等；被试因素包括被试的背景知识、阅读技能，甚至被试的年龄焦虑状态等。本文关注的是信息的不同呈现方式对心理预期的影响。

长期以来，有关文字的阅读研究一直是心理学专家最为重视、投入精力最多的一个课题，而有关图形的研究却相对较少。wWW.133229.Com近年来，人们开始对图形的研究进行了一定关注。沈德立等(2001)认为，与文字相比图片具有双重编码，而字词只是单一编码，因而图片便于记忆，更有优势效应。图片之所以具有优势效应是因为图片的视觉特征区分度较大。图形材料作为一种信息或对文字信息的诠释，具有直观、鲜明、生动的特点，更能被受众认知与把握。特别是在新闻报道中，新闻摄影以其独特的报道方式与强烈的视觉冲击，达到“一图胜千言”的效果。最近一项调查表明，当今我们对社会信息的获得，60-70％的方式是图像的方式。

本研究探讨的主要问题就是图片、文字这两种不同的信息传播方式对预期结果的影响有何不同。

预期结果包括很多方面，本研究将重点放在了预期结果的一致性、感受等个方面，即：群体对某一特定信息做出预期的一致程度是否因信息传播方式的不同而产生差异(一致性)；不同的信息传播方式对受众心理预期的刺激强度是否也会不同(感受性)。在本研究中，因为预期的结果在本研究中通过问卷的答案体现，研究者通过观察两组答案的分布特点(一致性)、数量值上的差异(感受性)，来观察不同的信息传播方式对预期的影响。具体为两个问题：两者对预期结果的一致性存在什么样的影响；两者对预期结果的感受性存在什么样的影响。

2研究方法

2．1被试

本研究采用整群抽样，被试共79名，均为男性，年龄在l8到24岁之间。参加填写问卷的个体必须符合以下要求：初中以上文化水平，视力或矫正视力正常。被试随机分配到图片组或文字组，经检验，两组被试在年龄和文化水平方面不存在显著差异。

2．2研究工具

本研究采用自编问卷材料。问卷分为两套，一套为图片问卷，共15题。每题都是一张描述特定场景的图片，然后是与这张图片相关的一个问题及七个选项。另一套为文字问卷，与图片问卷不同之处就在于它不是用图片描述特定场景，而是用一段描述性的文字代替图片描述特定场景。

两套问卷除了场景的描述方式不同，一个用图片说明一个用文字描述，其余全部相同。为了排除答题倾向的干扰，问卷中半数的问题选项逆序排列，两套问卷逆序排列的题号及排列顺序一致。

2．3程序

2．3．1问卷的编制

本次研究以自编问卷为主。具体过程如下：

首先，选择图片材料并生成相应的文字描述。对入选图片的基本要求是：有一定情节(独立性)，可以用简单语言进行描述，有较明显的预期感受性。以基本要求为标准，共选定33张图片作为初步人选图片。然后，由6名大学生对图片进行描述，如果大多数人对图片的描述基本一致，则符合研究目的，反之则不符合。结果33幅图片中有5幅不符合要求，l幅与研究者假设方向相反，所以有6幅图片被淘汰。由3名大学生对选定图片进行描述。(指导语为：“请你对每张图片进行描述，在描述过程中将你观察到的全部信息尽可能详细的记录下来。可以用词语、短句，尽可能不用长句，不要使用否定句和疑问句。”)为避免研究者的主观性，将3名学生的描述结果交由另一名没有参加过前两次实验的大学生进行汇总，汇总要求是：将3名学生的描述结果相同的合并、不同的接受，不要漏掉任何有关信息。这样做是因为每名学生的描述都是客观上用于判断的图片信息的真子集，如果将他们的描述中相同的合并、不同的接受，那么这个并集会越来越接近全集，即文字问卷中每题的信息含量最大限度地接近图片问卷中每题图片给予的信息(有关图片问卷和文字问卷信息量对等的问题在第五部分综合讨论中会详细阐述)。在此基础上删去描述不清楚的图片，结果有9张图片无法准确描述被删去，最终确定15张图片做题目，3张备用。

然后，编订问卷的问题及选项。问卷问题由研究者根据最初选定图片时对图片预期的假设而编订的，并根据每个问题编制十余个备择选项。而后选取6名大学生(没有参加过以前任何试验)，让他们看图对问题进行选择，目的是选定选择项的量程范围，缩小选择项之问的尺度跨度，使之更精确。在确定选择项的数量值范围之后，对于选择项为数字的那部分题目，将其在这个范围内按对数关系计算出五个数据点，加上已确定的最大值及最小值，共七个数据点，设为七个选项；选择项为文字的那部分题目，将其在数量值范围内按程度从低到高划分为七个等级，设定为七个选项。

2．3．2实施调查

对79名青年男性进行了调查施测，采用团体施测方式，分两次进行，每名被试随机分入图片组或文字组。测试指导语均为书面形式，具体如下：“请你根据以下陈述的事件(给予的图片)，对相关问题进行一个推测，在1—7个选项中选出一个与你的推测最相近的答案。注意：根据上文给予的有限信息推测每个问题，只认为事件是在一般情况下发生，不考虑特殊情况。”

3结果

3．1数据的预处理和项目的筛选

用pearson系数以及每道题与问卷每题总分相关分析了图片、文字两套问卷的信度。其中，在图片问卷中第一题的相关系数为0．205，第二题为一0．122，第四题为一0．049，文字问卷中第一题的相关系数为0．179，第二题为0．314，第四题为0．241，这三题在两套问卷中的相关显著性都大于0．05，对问卷统计结果没有意义，所以保留其余12题的结果进行分析。

3．2预期结果的一致性

首先考察在不同信息传播方式的影响下受众预期结果的一致性有何差异。预期结果的一致性是指受众选择答案的分布的离散程度是否相同，采用方差齐性检验法。

对于大多数项目来说，文字问卷的方差都大于图片问卷，其中有6个项目存在显著差异，其余项目不存在显著差异。

3．3预期结果的感受性

预期结果的感受性是指受众对图片或者文字描述的心理感受程度，以及根据这个感受程度做出的预期推理。本研究通过研究受众对问题预期推断的结果来观察受众的心理感受程度。具体分析方法为：首先，计算出各名被试的总得分，即将每份问卷的答案相加(逆序编排答案的题目先进行校正)，结果见表2；其次，将两组中各名被试的得分进行独立样本平均数差异的显著性检验。

检验结果为：t(77)=5．258，p<0．001，表明图片、文字两种信息传播方式对受众感受性的影响存在显著性差异，受众对图片材料的感受性高于文字材料。

4讨论

通过以上数据可知，图片、文字两种信息传播方式对受众心理预期产生了显著的影响，这主要体现在两个方面：预期结果的一致性和预期结果的感受性。

对于预期结果的一致性，目前的数据结果还不能做出确凿的结论。从表1可知，在绝大多数项目上，图片问卷组的方差要小于文字问卷组的标准差，这意味着在绝大多数情景下，图片材料对受众心理预期的影响更加一致。但是，由于每个项目都是采用7点计分，两种情况下的方差很难出现很大的差别。就本研究的结果来说，只有大约二分之一的项目出现了显著差异。不过，在所有项目中，除了第二题和第三题，其余各题的方差都是文字问卷的大于图片问卷的。这种明显“一边倒”的情况是值得关注的。

在预期结果的感受性方面，本研究统计结果表明，图片问卷和文字问卷之间存在显著差异，图片材料对被试心理预期的影响大于文字材料。两组问卷对被试心理预期的影响之所以存在如此大的差异，很大程度上是因为两种认知过程之间的差异。图片中的信息传输给被试时是并行式的，而文字描述中信息传输的形式是串行式的。被试在接收图片信息的冲击时是同时处理多个信息，而文字信息在被试脑中的处理过程是按顺序逐一接收信息再统一整合，所以图片信息给受众的冲击力要强于文字信息，这也就是图片组的感受性明显高于文字组的一个重要原因。

在探讨图片、文字两种信息传播方式对心理预期的影响时，信息量是否对等是特别值得关注的问题。如果图片问卷和文字问卷在场景信息方面存在信息含量不对等，就会直接影响被试的选择，在这种情况下，两组被试选择结果的差异就有可能是由信息量的不对等引起的，而不能完全归因于两种信息传播方式之间的差异。本研究在问卷编订的全过程中力求在操作层面上尽可能地减小或者消除这种不对等。本研究的文字描述是来源于图片，所以某一名被试的描述只可能是图片包含的所有信息量的一个子集。将所有被试的描述结果整合到一起，这样也就做到了文字描述和图片的信息含量尽可能地相似。

本研究的意义在于它将心理预期这个心理现象量化，使其具有了可操作性。心理预期是一种心理现象、心理范畴，在以往的研究中，心理预期只是作为一个整体概念被人们研究。而在本研究中，研究者通过心理感受等级将心理预期划分为若干个等级，便于实验的操作、数据的对比及分析。

地理信息数字化描述方法范文第4篇

论文关键词：心理预期；信息传播；图片；文字

1引言

长期以来，有关文字的阅读研究一直是心理学专家最为重视、投入精力最多的一个课题，而有关图形的研究却相对较少。近年来，人们开始对图形的研究进行了一定关注。沈德立等(2001)认为，与文字相比图片具有双重编码，而字词只是单一编码，因而图片便于记忆，更有优势效应。图片之所以具有优势效应是因为图片的视觉特征区分度较大。图形材料作为一种信息或对文字信息的诠释，具有直观、鲜明、生动的特点，更能被受众认知与把握。特别是在新闻报道中，新闻摄影以其独特的报道方式与强烈的视觉冲击，达到“一图胜千言”的效果。最近一项调查表明，当今我们对社会信息的获得，60-70％的方式是图像的方式。

本研究探讨的主要问题就是图片、文字这两种不同的信息传播方式对预期结果的影响有何不同。

2研究方法

2．1被试

2．2研究工具

2．3程序

2．3．1问卷的编制

本次研究以自编问卷为主。具体过程如下：

2．3．2实施调查

3结果

3．1数据的预处理和项目的筛选

3．2预期结果的一致性

首先考察在不同信息传播方式的影响下受众预期结果的一致性有何差异。预期结果的一致性是指受众选择答案的分布的离散程度是否相同，采用方差齐性检验法。结果见表1

从表1可见，对于大多数项目来说，文字问卷的方差都大于图片问卷，其中有6个项目存在显著差异，其余项目不存在显著差异。

3．3预期结果的感受性

检验结果为：t(77)=5．258，p<0．001，表明图片、文字两种信息传播方式对受众感受性的影响存在显著性差异，受众对图片材料的感受性高于文字材料。

4讨论

地理信息数字化描述方法范文第5篇

关键词：数字化图书管理档案化

在信息化发展的今天，图书馆，特别是大学图书馆不仅要对信息进行简单的数字转换和管理，更要对新兴事物网络进行档案化管理和归档，包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。所以网络档案化管理，成为当今图书管理的必然趋势，这就必须对档案化管理的技术和法律相关问题进行深入阐述和探讨。

所谓数据挖掘(Data Mining)，就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这些数据可以是结构化的，如关系数据库中的数据，也可以是半结构化的，如文本，图形，图像数据，甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等，还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系，是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科，是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

一、数据挖掘的功能

数据挖掘通过预测未来趋势及行为，做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识，按其功能可分为以下几类。

1、关联分析

关联分析能寻找到数据库中大量数据的相关联系，常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

2、聚类

输入的数据并无任何类型标记，聚类就是按一定的规则将数据划分为合理的集合，即将对象分组为多个类或簇，使得在同一个簇中的对象之间具有较高的相似度，而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3、自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测，寻找预测性信息，自动地提出描述重要数据类的模型或预测未来的数据趋势，这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

4、概念描述

对于数据库中庞杂的数据，人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等。

5、偏差检测

数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为，或市场分析中分析特殊消费者的消费习惯。

二、数据挖掘在建设现代化高校档案馆中的应用

1、资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案、电子文件中心中存储的各类电子档案、档案软件收集的信息、档案信息网建设和维护信息。我们从研究大学档案用户的信息需求出发，数据挖掘为大学档案馆全面掌握和准确理解档案用户的信息需求提供了方法。

(1) 利用Web访问信息挖掘技术发现其中的关联模式、序列模式和Web访问趋势等，构建多维视图的用户兴趣模型。从而可以确定档案信息或服务受欢迎的程度，发现用户访问模式和用户需求的趋势，从不同侧面来研究用户的信息需求，为优化档案馆的档案信息资源建设提供了科学依据。

(2) 收集大学档案网web服务器保留的用户注册信息、访问记录，以及有关用户与系统交互的信息等原始数据，经过清洗、浓缩和转换形成便于统计分析的用户查阅数据库、日志数据库、用户定制信息库、用户反馈信息等各种数据集合。

2、从建设大学档案馆馆藏信息资源出发，数据挖掘为大学档案馆提供了选择一条科学发展道路的重要依据。

(1) 利用档案网和档案管理软件访问信息的挖掘分析出档案资源的利用率，将利用率高、需求量大的传统载体档案优先数字化。例如：通过对档案信息的访问记录、检索请求中用户请求失败的数据进行分析，按类统计档案拒用集和频繁利用集，结合聚集算法发现馆藏资源的缺漏，有针对性地补充和丰富档案信息资源。

(2) 在大学档案馆藏管理过程中利用文本挖掘，运用关联、分类、聚类等方法，从海量档案信息中按照相关专题进行挖掘、分类、加工、整理和有序化重组，构建特色档案信息库及各类专题档案信息库等。

3、从做好大学档案馆信息管理工作的角度出发，数据挖掘为优化馆藏信息和对未来工作的预测发挥重要作用。

(1) 在提供利用环节中，对用户每次借阅的信息进行关联分析，发现各类档案信息之间的关联规则或比例关系，这样可以进一步优化馆藏信息。

(2) 开展大学档案馆馆藏信息文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价工作，实现对大量文档集合的内容进行总结、分类、聚类、关联分析、分布分析，通过归纳与总结，发现的知识可以为未来档案工作的趋势进行预测。

上一篇：诚信经营制度下一篇：医院环境文化设计

地理信息数字化描述方法

相关推荐更多

热门文章排行更多

精品文章排行更多

相关期刊更多

地理与地理信息科学

地理研究

热带地理