首页 > 文章中心 > 大数据时代的概述

大数据时代的概述

大数据时代的概述

大数据时代的概述范文第1篇

【关键词】概率论 描述统计 推断统计 统计思想

一、概率论引入统计学的意义

(一)方法的突破

统计学研究对象的拓展。引入概率论后统计学研究对象的拓展表现在外延与内涵两方面。外延上,导源问题研究的概率论以随机性现象为主要研究对象,它的应用将统计学思想方法带到自然科学领域,甚至用于研究人类心理活动、思维现象,拓展了原来始于社会经济现象研究的统计学的研究对象。另外,联姻前统计学对现象的描述、分析只能止于其确定性方面,有概率论新工具后,其不确定性方面也能描述分析,拓展了作为统计学对象的社会经济现象的数量信息内涵。研究对象的拓展,使得在此基础上统计学成了一门具有通用性的定量分析工具。

统计学研究方法的进阶。概率论联姻“统计”的突出意义表现在方法上—由描述走向推断。“描述统计”(包括数据的收集、整理、显示和分析)主要是通过图表形式对所收集的数据进行加工处理和显示,进而综合、概括和分析得出反映客观现象规律的数量特征;“推断统计”则是在对样本数据进行描述的基础上对统计总体的未知数量特征作出以概率形式表达的推断。联姻之前的古典统计学主要就是初级的“描述统计”(简单的计量、分组、图表、推算等),现代统计学则以“推断统计”为其核心内容。这里“描述”与“推断”的划分一方面反映统计方法发展的两个阶段,另外也反映应用统计方法探索客观事物数量规律的不同过程。“描述”是基础,“推断”是主要内容。

推断统计的现实性意义。统计学从描述发展到推断,反映统计学发展的巨大成就,也是统计学成熟的重要标志。一方面,它是重要的认识工具。正是由于有了“推断”,科学借助统计这一定量分析工具取得了巨大成就。象著名的基因论就借助推断统计方法而得。

(二)思想的腾飞

矩:统计学早期便有“平均”即一般代表值的思想,认识事物数量方面的一般性。引入概率论后,“平均”引申到“期望”,描述随机变量的集中趋势。与“平均”相对应,有对数据偏离“一般”程度的描述即“变异”,认识事物数量方面的差异。引入概率论后其内涵扩充到对随机变量离散程度的描述。“矩”源于力学研究,均数、方差同重心和转动力矩之间的类似促使统计上用“矩”来描述数据特征。其概念涵盖前述的几个参数,并扩充到多阶、多维随机变量特征的描述。“矩”体现了统计“求同察异”的思想,即在了解差异的同时认识事物的同质性。

估计:估计是据样本数据对总体参数所作出的“猜想”’其实质是一种类比,将对已知事物的认识拓广到更大范围。实际上有一个假定即样本、总体的同质性(同分布)。由于样本的随机性使得估计带有不确定性,便给出“区间”来对其描述。

检验:检验即先对总体特征作出一种假设,然后根据样本信息对这一假设的支持程度作出描述(假设正确性的判断),主要运用反证法、小概率原则等思想。检验与估计构成统计推断内容的两面,鉴于思维上推与证的不同而分别提出。

拟合:拟合就是对现象之间的联系、发展规律、变化趋势给予定量描述,是对事物间关系表现的一种抽象。也就是以一定的模型来反映现象及现象间的联系的发展变化,表现出联系的显性方面而抽象掉非显性方面。

相关:相关是客观事物普遍联系的哲学思想在统计上的具体化。统计所研究的对象之间往往表现出相随共变或相随共现的情况,相关便是对现象间这种联系的数量表现的描述、分析。通过对比关联现象变化的方向与程度,来研究它们之间是否有联系、联系的紧密程度和形式。

惯性:哲学上,客观现象都是有规律的辩证发展运动过程。任何运动都具有惯性,这种惯性表现为系统的动态性即记忆性。它反映现象未来行为与过去的行为有关这样一种动态思想,是“动态相关”,也是预测的思想基础,反映现象本身及现象之间关系发展、变化的规律性。

二、概率论引入统计学的启发

概率论引入统计学,使统计学思想方法有了质的飞跃,并成为统计学坚实的理论基础。这也给我们启发:统计学必须与时俱进,顺应时代而发展,不断完善方法体系,与其它定量分析工具、计算技术及其应用领域科学结合融会。

研究对象泛化:统计学是定量分析工具,首先便表现在对所研究的对象(社会经济现象、自然现象、精神思维等)的定量描述上(对象信息数据化),然后再做定量分析。最初统计学只能局限于现象数量信息做确定性的数量描述、分析,引入概率论之后,对研究对象便可以做随机性描述、分析。而实际工作中有时还必须对定性的、模糊的、混沌的甚至突变的等研究对象做定量的描述与分析,概率论便会有所局限,必须引入新的工具。比如引入模糊数学,对模糊性现象做定量描述分析;引入灰色理论,形成灰色统计思想等等。

电子技术发展:科技特别是计算机技术的发展使数据处理的手段得到提升,并对统计提出了新挑战。电脑、网络的出现一方面使统计学的研究对象(总体)成了一个结构复杂的系统,另一方面对数据的分析处理变成了算法。同时在我们面对的数量信息超大量化后,统计的“收集、分析数据”的任务、统计推断意义也就必然发生变化,等等。这一切都要求统计必须与计算机及其它科学联姻,如人工智能、神经网络理论等。

应用领域扩张:现代统计学是一多层次多门类的学科,几乎所有的科研都要借助这一定量分析工具。应用领域的不同,对这一工具的要求必然不尽相同。比如生物统计、保险统计与统计地理学在基础性方法一致的基础上各有与其相联系的实质性科学的特点。现代统计方法(包括概率论的成长、壮大)很大程度上来自一些实质性科研活动,这也就要求我们坚持以概率论等数理工具为基础的前提下紧密联系应用领域的实质性科学。

总之,统计学是一门生命力强大的科学,也是一门与时俱进的科学。顺应时代要求,不断借鉴其它方法科学,丰富统计方法,拓展应用领域。

大数据时代的概述范文第2篇

关键词:现代术语学,术语形成的经济律,潜在歧义论

中图分类号:H083,N04 文献标识码:A 文章编号:1673-8578(2012)06-0054-04

Review of the Revised Edition of An Introduction to Modern Terminology

WANG Shaoshuang YANG Qingzhen

Abstract: As Chinas first monograph on terminology studies, An Introduction to Modern Terminology has contributed to constructing the Chinese discourse on terminology studies and laid a solid foundation for the terminology studies in China. This book gives an overview of general terminology studies, creates the economic law of term formation and the potential ambiguity theory, and sheds light on the development of Terminography. This article firstly introduces the contents of the revised edition of the book and then comments on its writing features, academic contributions and shortcomings.

Keywords: modern terminology, economic law of term formation, potential ambiguity theor

引 言

随着全球化信息技术时代的到来,现代术语学在西方应运而生,旨在研究术语的语言特征及其运作规律。始自20世纪30年代,西方术语学逐渐发展完善,形成了现代术语学的四大主要学派,即德国—奥地利学派、俄罗斯学派、捷克—斯洛伐克学派、加拿大—魁北克学派。

尽管我国古代的名学思想中已蕴涵了术语学的某些思想[1],但现代术语学研究在我国起步相对较晚。在20世纪80年代有一些国外术语学著作在我国得到了译介,如刘刚等译的《术语学概论》[2]、张一德译的《应用术语学》[3]、邹树明等编译的《现代术语学与辞书编纂》[4]。进入90年代以后,术语学逐渐开始受到我国学者的重视[5-6],而冯志伟的《现代术语学引论》[7](以下简称《引论》)也在1997年8月由语文出版社组织出版,它被认为是我国第一部现代术语学理论专著[8]。时隔14年之后,冯志伟先生根据术语学的最新发展,对该书的内容做了进一步的更新和调整,其增订本[9]作为“中国术语学建设书系”之一,于2011年9月由商务印书馆出版发行。本文简单介绍该书的主要内容,并分析该书的写作特点与学术贡献。

一 内容述要

《引论》(增订本)全书由十六章构成,第一至八章介绍了普通术语学的一般理论与方法,第九至十五章讨论了中文术语研究的相关问题,第十六章则关注了信息时代术语学发展的最新动态——计算术语学。各章的主要内容可简要列述如下:

第一章介绍国内外术语学研究的基本情况。包括术语学产生的背景、发展历史、现代术语学的四大流派及其基本理论观点,以及国外的术语学教育;挖掘了我国术语学思想的渊源,分析了汉唐时期的佛教翻译与各朝代的科技著作中的术语状况,叙述了近代外国科技著作中术语的汉译情况,以及术语相关机构的设立。

第二章阐释了什么是“术语”以及术语定名的原则,讨论了术语模型、单义术语、多义术语、多源术语、同义术语、等价术语、同音术语、异形术语、术语的地域分歧、印欧语言的术语构成方式、缩略术语、借用术语、汉语术语中借用的日语术语、直接从西方语言翻译的汉语术语、转写、译音、以及科学单位等问题。

第三章介绍了“概念”的基本知识,探讨了概念的内涵和外延、概念的组合、概念特征的类别、概念系统及其图示法、概念的属种关系、概念的整体-部分关系、概念的联想关系、概念的两极关系和分级关系、概念的承袭关系、多维混合概念系统、概念的有序性、概念和术语的协调等问题,最后还剖析了知识本体在哲学、计算机科学和术语学三个领域中的不同含义。

第四章涉及术语定义的相关问题。首先展示了术语定义的基本方法,如内涵定义、外延定义、上下文定义,然后论述了定义的作用、定义的一般原则、定义的具体原则、定义的系统性、定义的辅助手段、定义方式的总结,以及定义的变化问题。

第五章涵盖了术语编纂的相关内容。介绍了《国际电工词典》和《天文学名词》,探讨了术语编纂的符号、语言代码、术语数据的种类、单语言术语词典、多语言术语词典等问题。

第六章论述术语标准化问题。首先介绍了标准化及其七条原则,以及几个主要的国际标准化组织。

第七章探讨了术语的命名原则。分别讨论了生物学、物理学、无机化学、有机化学、天文学等学科术语的定名。

第八章讨论了术语数据的存储与交换问题。介绍了世界上九种主要术语数据库的基本情况和特征、建立术语数据库的基本要求及其过程、术语数据库的技术评测,讨论了术语数据的交换。

第九章首先介绍了中文自然科学术语命名原则、中文术语定名的基本要求、审定工作中术语的选择原则、审定工作中术语的编排格式、术语索引的编排方法、中文术语的审定程序等问题,然后介绍了我国各个学科的术语审定工作。

第十章采用描写性的方法分析了中文单词型术语。内容涉及中文单词型术语的类别与结构、中文偏正式术语中各语素之间的语义关系、中文术语中的语缀等问题,描写性的分析方法有助于中文术语的规范性研究。

第十一章研究了术语形成的经济律,旨在对术语系统中词组型术语占多数的术语现象进行理论上的阐释。首先提出了术语系统的经济指数、单词的术语构成频率、术语的平均长度等新概念,据此提出了术语形成的经济律,并用FEL公式对其进行描述。最后提出了生词增幅递减律和词汇增长模型。

第十二章阐释了潜在歧义论在中文术语学研究中的应用。介绍术语结构的两种表示方法,探讨术语的字面含义和学术含义、词组类型结构、句法功能结构、功能焦点、逻辑语义结构,探讨词组型术语的命名规范。

第十三章分析了中文名词词组术语的结构。根据几何结构的不同,将中文名词词组术语分为十一种类型,并使用树形图和有限状态转移网络对各种类型的结构做了描写分析。

第十四章分析了中文动词词组术语和中文形容词词组术语的结构。根据几何结构的不同,将中文动词词组术语分为三组,将中文形容词词组术语分为两组,并分别使用树形图和有限状态转移网络描写分析了这些类型的结构。

第十五章分析了中文名动同形词词组术语的结构。将中文名动同形词词组术语分为四种类型,并使用树形图和有限状态转移网络加以分析。

第十六章讲述了计算术语学的内容,主要涉及中文术语结构的自动剖析、术语的自动发现、术语的自动标引等课题。

二 写作特色

与第一版相比,经过作者的修订与补充,《引论》(增订本)的内容更加丰富、充实,并体现了信息时代的特点。

首先,作者增加了两章新内容,第一章“术语学的历史与现状”使读者可以首先对术语学产生一个概括式的理解,有助于进一步深入阅读;第十六章“计算术语学”,讲述术语结构自动剖析和术语的自动处理,反映了信息时代下术语学发展的最新动态。

其次,作者对部分章节的名称做了修订。第三章“概念和概念系统”改为“概念系统和知识本体”,表明了对知识本体研究的关注。第七章“各科术语问题”改为“术语命名原则”,更加符合该章的内容主题。第八章“术语数据库”改为“术语数据的存储与交换”,拓展了该章的研究范围,也体现了建立术语数据库的目的和用途。

再次,作者对各章节的内容进行了较大幅度的修改和补充。第三章增加了 “概念”的阐释部分的篇幅,增加了概念的联想关系、两极关系和分级关系、承袭关系、多维混合概念系统、概念的有序性、概念和术语的协调等,尤其是对知识本体的相关论述,反映了术语学研究的新动向。第八章增加了可扩展标记语言XML的相关介绍,体现了信息时代术语数据存储与交换技术的新发展。第十二章在开始处增加了对短语结构语法的介绍,有助于读者更好地理解潜在歧义论在中文术语研究中的应用。

概览全书,《引论》(增订本)具有以下特点:

第一,编排合理,逻辑性强。第一章从整体上介绍术语学的历史和现状,接着对“术语”“概念”“定义”这三个术语学最基本的概念做了深入阐释,在此基础上论述术语编纂、术语标准化、术语命名原则、术语数据的存储与交换等问题,并进而探讨中文术语研究的有关问题,比如术语形成的经济律和潜在歧义论。

第二,图文并茂,便于理解。该书是一部理论性极强的术语学研究专著,难免会涉及一些晦涩难懂的概念和理论观点。作者在力图做到语言表达清晰的同时,还使用了大量的图表对相关概念和观点进行了图示说明,使得理论的表述更为形象、易懂。如:第二章应用图示解释了术语模型、多义术语、同音术语;第三章应用图示说明了概念化和指称化的过程、概念的外延和内涵,并应用树形图表示了概念之间的各种关系;在分析中文词组型术语结构的相关章节中,作者更是使用到了大量的图示对各种复杂的术语结构进行解析。此外,该书中还含有许多表格,用于展示相关数据的统计、术语结构的分类情况等。

第三,资料翔实,例证丰富。第一章通过相关历史人物和史实的回顾,对国内外术语学研究的发展史做了详尽的梳理。在对术语学的相关概念进行介绍和阐释时,该书选用了大量的例证加以说明,尤其是在应用潜在歧义论研究中文术语时,涉及了大量的词组型术语的实例,以便更清晰地对复杂的术语结构进行描写分析。该书对世界范围内现有主要术语库和国内外术语相关机构的细致介绍,也是作者在资料收集方面的翔实表现。另外,该书还使用了大量的相关数字对有关问题进行了定量的说明。

三 学术贡献

作为我国第一部现代术语学理论专著,该书对于中国术语学的建设和发展具有举足轻重的意义,其学术贡献可归结为以下三个方面:

第一,该书对普通术语学的基本理论和原理进行了全面的梳理和介绍,为中国术语学的建设和发展起到了奠基作用。在我国,术语学研究起步相对较晚,“术语学一直是我国应用语言学研究中的一块未开垦的处女地,是一个需要我们开发的科学空白点”[7]。一直以来,国内缺少一本系统介绍普通术语学的理论著作,该书的出版为后继学者进一步开展术语研究工作提供了理论基础支持。该书不是简单地综述西方已有的术语学理论,而是在借鉴西方术语学研究成果的基础上,对术语学理论又有了进一步的发展。这一点尤其反映在该书的术语观上。该书把基于概念的术语观推进到了基于知识本体的术语观,把规范性的术语观推进到了描写性的术语观,把共时的静态术语观推进到了历时的动态术语观。这对建设具有中国特色的术语学理论具有重要意义。

第二,该书对中文术语的类型和结构进行了系统的分析和探究,开创了术语学研究的两大新理论,即术语形成的经济律和潜在歧义论,提出了适合中文术语的结构分析方法,这有助于汉语术语学研究的纵深发展。作者将中文术语按结构分为单词型和词组型两类,并通过对术语数据库GLOTC中单词型术语和词组型术语的分布分析,从理论上解释了后者在术语系统中占主导地位的原因,并据此提出了术语形成的经济律。作者还指出中文术语的词组类型结构与句法功能结构之间并不一一对应,两者不对应时就会导致潜在歧义,并据此提出了潜在歧义论。术语形成的经济律和潜在歧义论是作者对中国术语学理论所做出的独特贡献。

第三,该书对术语编纂理论、术语数据的存储与交换问题、计算术语学的论述,对我国术语词典学的发展具有启示意义。术语学研究的许多问题产生于术语词典的编写过程中,术语学研究提出的理论观点反过来又直接影响术语词典的编纂实践[10]。该书所提出的许多理论观点对于我国术语词典编纂都具有指导作用,尤其是第五章对术语编纂的相关论述,更是具有立竿见影的效果。而对术语数据库和计算术语学的相关介绍,也将为传统的术语词典编纂理论和实践带来变革。

由于该书是我国学者编写的第一部术语学理论专著,无先例可循,难免存在有待改进之处。书中对普通术语学的介绍忽略了一些最新的西方术语学理论,如社会认知术语学理论、交际术语学理论、基于框架的术语学理论等。在该书中,虽对术语管理的内容有所涉及,但未对该概念做重点介绍。另外,该书对中国术语学的介绍,主要集中于内地的情况,未能充分反映港台地区的术语学研究所取得的进展。

四 结 语

总体而言,《引论》是我国现代术语学发展史上的第一部专著,为后续的术语学研究工作奠定了坚实的基础。自从该书出版后,术语学作为一门综合性的边缘学科,逐渐进入了我国学者的研究视野,不仅有对国外术语学理论的译介,亦有针对中文术语的特点所进行的专门研究,甚至还有学者提倡将术语学纳入高校的课程体系,培养学生的术语能力[11-12]。正如冯志伟先生所言,我国术语学研究不仅需要学习和借鉴西方的术语学研究成果,还应发展我们自己的术语学,“建立具有中国特色的术语学理论”。在众多学者的共同努力下,现代术语学研究的第五大学派——中国术语学学派正在形成,《引论》一书出版,也将继续推动中国术语学的茁壮成长。

参 考 文 献

[1] 龚益. 社科术语工作的原则与方法[M]. 北京:商务印书馆,2009.

[2] 隆多G. 术语学概论[M]. 刘钢,刘健,译. 北京:科学出版社,1985.

[3] 迪毕克R. 应用术语学[M]. 张一德,译. 北京:科学出版社,1990.

[4] 邹树明,吴克礼. 现代术语学与辞书编纂[M]. 北京:科学出版社,1988.

[5] 赵家琎. 术语学概论[J]. 外国语,1992(2):51-56.

[6] 陈楚祥. 术语·术语学·术语词典[J]. 辞书研究,1995(1):56-57.

[7] 冯志伟. 现代术语学引论[M]. 北京:语文出版社,1997.

[8] 黄忠廉. 我国外语界术语学研究综述[J] 辞书研究[J],2010(2):100-110.

[9] 冯志伟. 现代术语学引论[M]. 增订本. 北京:商务印书馆,2011.

[10] 郑述谱. 俄国术语词典学理论发展概览[J]. 辞书研究,2005(1):181-191.

大数据时代的概述范文第3篇

关键词: 基础课程; 数学素质; 实践能力; 可持续性发展能力

中图分类号: G427 文献标识码: A 文章编号: 1009-8631(2011)03-0152-01

《线性代数》是高等数学的一门基础课程,主要研究线形空间形式和线形数量关系。这一数学工具在经济科学,管理科学中有着广泛的应用,著名的投入――产出模型就是以线性代数理论为基础的。学好这门课程,对掌握现代经济理论和解决实际问题会有很大帮助。同时《线性代数》还是软件专业的一门重要基础课。在多次的课堂教学过程中,我总结有如下三个教学策略:

一、以人为本,重视培养基本的数学素质和数学能力

《线性代数》课程作为高等数学的重要组成部分,是高等院校理工类、管理类专业教学计划中不可少的重要主干基础课程之一,在高等学校课程体系中占有特殊重要地位。《线性代数》课程,需要从两方面入手,促进课堂教学效果的全面提高。第一是提高数学素质。数学素质是人的整体素质的很重要的组成部分,学生的数学水平的高低直接关系到我国人才的素质和能力。数学是培养和造就各类层次专门人才的共同基础,其关键是要突出抓好培养学生的数学素质,是数学教育的灵魂。特别对非数学专业的学生来说,大学数学基础课是学生掌握数学工具的主要课程,这对培养非数学类专业学生是非常重要的,是“专业素质”的重要内容。它还是学生培养理性思维的重要载体。数学研究的是各种抽象的“数”和“形”的模式结构,运用的主要是逻辑,思辨和推理等理性思维方法。另外,大学数学基础课是学生接受美感熏陶的一条途径。教学是美学四大中心建构(史诗、音乐、造型和数学)之一,数学美也是人类审美素质的一部分。第二是培养数学能力。在高等数学学习过程中,逻辑思维能力、运算能力和空间想象能力是学生学习的基础,是对学生对数学认知特点的概括,是在数学活动中表现和培养的,带有数学的特点,因此被认为是数学能力。主要包括:逻辑思维能力:会对问题或数学材料进行观察、比较、分析、综合、抽象与概括。会用演绎,归纳和类比进行判断与推理,能准确、清晰、有条理地进行表述。运算能力:会根据概念,公式和法则对敷,式和方程进行正确的运算和变形,能分析条件,寻求与设计合理、简捷的运算途径:能根据要求对数据进行估计,并能进行近似计算。空间想象能力:能根据条件画出正确的黑穗病莱,根据图形想象出直观形象,能正确地分析出图形的基本元素及其相互关系,能对图形进行分解、组合与变形。分析问题和解决问题能力,能阅读,理解陈述的材料,能综合应用所学教学知识、思想和方法解决问题,包括具有实际意义或在相关学科、生产、生活中的教学问题,并能用数学语言正确地加以表达等等。

二、以能力为本,突出提高学生的学科学习实践能力

《线性代数》这门课程的主要内容是以行列式为中心,介绍了行列式、性质与计算以及用克莱姆法则求解线性方程组的方法等等。由于《线性代数》的核心内容比较抽象,仅通过套用公式是行不通的,需要动脑动手去思考和操作。因此需要在充分理解基本概念基础上,适当做些题目,进行透彻理解。重点要把握好《线性代数》知识点的衔接与转换,其有三个基本点:一是提高对基本概念的理解与把握能力。注重对基本概念的理解与把握,才能正确熟练运用基本方法及基本运算。线性代数的概念很多,重要的有:代数余子式,伴随矩阵,逆矩阵,初等变换与初等矩阵等等,学生如果不能准确把握住概念的内涵,也没有注意相关概念之间的区别与联系,导致做题时出现错误。线性代数中运算法则多,应整理清楚不要混淆,基本运算与基本方法要过关,重要的有:行列式(数字型、字母型)的计算,求逆矩阵,求矩阵的秩,求方阵的幂等等。二是注重知识点的衔接与转换,知识前后贯通,努力提高综合分析能力。线性代数从内容上看纵横交错,前后联系紧密,环环相扣,相互渗透,因此解题方法灵活多变,只有不断地进行归纳总结,努力搞清内在联系,使所学知识融会贯通,接口与切人点多了,熟悉了,思路自然就开阔了。正是因为线性代数各知识点之间有着千丝万缕的联系,代数题的综合性与灵活性就较大,引导学生整理时要注重串联、衔接与转换。三是注重提高逻辑性与叙述的表述能力。线性代数对于抽象性与逻辑性有较高的要求,通过证明题可以了解学生对数学主要定理的理解与掌握程度,考查学生的抽象思维能力,逻辑推理能力。要引导学生善于整理,搞清公式,定理成立的条件。不能张冠李戴,同时还应注意语言的叙述表达应准确,简明。

三、以基础为本,侧重提高学生的可持续性发展能力

大数据时代的概述范文第4篇

关键词:互联网+;信息素养;数据素养;图书馆;大数据

1引言

随着大数据时代的到来以及以互联网为基础支撑的社会生产环境新业态、新形态的出现与迅猛发展,数据、互联网成为为人们不得不承认的两大社会发展驱动元素,进而促使人们借助互联网平台去深刻了解、熟练掌握、深度利用大数据就成为人们提高生活品质与工作效率、寻求社会发展驱动元素的最佳途径。而随着总理于2015年初继2012年易观在第五届移动互联网博览会上首次提出、腾讯董事长马化腾于2015年3月在全国两会上再次提出《关于以“互联网+”为驱动,推进我国经济社会创新发展的建议》之后在《2015年政府工作报告》中第三次提及,“互联网+”至此一跃成为国家发展战略,进而引发了社会特别关注。在《互联网+行动计划》、《关于积极推进“互联网+”行动的指导意见》、国家“十三五”发展规划等国家宏观政策的指引和调控下,全国各地兴起了一股“互联网+”的发展与研究热潮,“互联网+”因此成为人们工作、生活交流与讨论的高频词。学术界也敏锐地观察到了“互联网+”这一未来改变学术研究视野的全新领域,如笔者在中国知网(CNKI)以“互联网+”为主题检索词进行文献检索(检索日期:2015年10月10日),经人工筛选后发现在短短半年期间就有215篇涉及到农业、教育、能源、创业等多个领域的“互联网+”研究成果,笔者研读了这些文献中下载频次较多的十余篇研究成果,发现尽管“互联网+”还处于一个发展初期,其研究深度及研究广度、论证资料与论述视角与成熟的研究成果还有不小差距,但明显可以感受到研究者对“互联网+”的关注热情及“互联网+”未来将带给学术界的巨大影响。在现代信息技术应用、互联网建设以及学科服务等基础与制度的支撑下,图书馆不仅是民众获取信息、挖掘潜能的最佳选择场所,也是民众参与社会文化活动、提升个人信息素质、实现人生价值的学习场所,其教育职能得到了有效的发挥。以提升个人信息素养的计算机技能、网络搜索等活动时常在图书馆举办,并得到包括在校师生、社会民众、务工人员的积极参与,反映出图书馆已成为社会教育的主要场所与机构,为信息社会的民众信息素养提高发挥着重要的作用。但信息素养的内涵随着大数据、“互联网+”时代的到来而显得不足以概括民众的所需技能素养,也因此在认识与措施上均制约着图书馆的信息素养教育开展,于是,一种强调数据的辩证认识与分析应用的新的素养概念———数据素养便应运而生,并在一些官方的概念表述、高校的大数据课程设置中得到多方体现。本文在概述“互联网+”与数据素养相关概念、内涵及应用的基础上,对“互联网+”环境下的图书馆素养教育需求与特征进行了分析,最后研究了“互联网+”环境下的图书馆用户数据教育方式。

2“互联网+”与数据素养概述

2.1互联网+

“互联网+”的本质是传统产业的在线化、数据化和信息化,旨在通过信息/数据的流动、分享、创造性使用来实现经济社会运行效率[1],但从业界如马化腾、雷军、阿里研究院等对“互联网+”的不同内涵表述可以发现,不同的领域从业者、不同的未来发展视察视角,决定了对“互联网+”的内涵认识表述有着千差万别,如以信息、数据为业务流的腾讯、阿里巴巴侧重于“互联网+”的“互联网应用”“信息扩散”属性特征,以互联网搜索、数据整合为主要业务的百度、则更强调“互联网+”的“产业渗透”“跨界连接”属性,但以实体商品手机为业务产出的小米则更看重“互联网+”思维下的互联网与“实体融合”与“经济增值增效”。简单来说,笔者认为可以将“互联网+”理解为一种基于与互联网深度融合、互联互动的传统行业的产业升级与业务重组,具有跨界融合、创新驱动、重塑结构、尊重人性、开放生态、连接一切等六大特征。

2.2数据素养

数据素养伴随着现代信息技术的应用和E-Learning、第四科研环境的到来而一直受到学者的关注与研究。一方面,对数据具备一定的处理能力已成为信息素养教育、科研活动的必备元素,如:美国学校图书馆员协会(AmericanAssociationofSchoolLibrarians,AASL)、美国大学与研究图书馆协会(TheAssociationofCollegeandResearchLibraries,ACRL)等在最新制定的信息素养培养方案中提及了辨认、利用数据的表述,如在AASL制定的《共同核心州立标准》、ACRL制定的《美国高等教育信息素养能力标准》均提到了“确认数据的价值、类型和格式的能力”[2],美国国家科学基金会(NationalScienceFoundation,NSF)、英美政府等也都将“数据管理计划”列为其项目管理的主要组成部分,并对其资助项目的科学数据存储、共享、使用提出了明确要求;另一方面,学者们对数据素养与信息素养、统计素养等素养的区别与联系进行了持续不断的研究,如:MiloSchield[3]在2004年指出信息素养、统计素养和数据素养之间存在着内在联系,不具备统计素养就难以提升信息素养或数据素养;RenéSchneider[4]认为研究数据素养(ResearchDataLiteracy)就是由“ResearchData”和“InformationLiteracy”两词合成而来。国内学者也自2011年以来开始对数据素养的研究,并出现了如何海地、缪其浩、孟祥保等数据素养研究核心作者群体,研究的范围涉及到了数据概念与内涵、数据素养教育及课程设置等多个主题领域,但这些研究成果对数据素养并没有一个统一的概念权威表述,大多是从其所包含的层次方面给予内涵划分。其实早在2005年,Hunt就对数据素养进行了一个较为权威的表述,他认为数据素养就是一种能够理解数据内涵、能够准确读取图表、能够从处理数据过程中得出有效结论、能够鉴别数据误用和滥用情况的能力[5]。笔者结合Hunt的概念表述与澳大利亚统计局、加拿大统计局等机构所公布的数据素养指标1,认为“数据素养就是信息素养在大数据时代的延伸和发展,是一种能够辩证、科学、正确认识数据的价值,进而在符合道德伦理的基础上加以操作和管理,使其能够通过分析、挖掘等操作应用或长久保存以备再次应用来实现其蕴含的巨大价值的能力”。

3“互联网+”视角下的图书馆数据素养教育特征与方式

3.1“互联网+”环境下的图书馆数据素养教育特征与需求

“互联网+”、大数据时代的到来,使得信息资源数量更为庞大、类型更为多样、结构更为复杂、传递更为明显,民众在“互联网+”环境中面临着更多的信息甄别、选择、分析与利用挑战,这就要求民众所具有的信息素养及数据处理能力也随之调整,并随着"“互联网+”建设进程的深化与加快、多个领域行业的不同而呈现出明显的需求专业化、多元化特征,这也就同时要求图书馆的数据素养教育还要紧跟时展而要有所创新,及时调整,才能够与之相对应。综合来看,“互联网+”环境下的图书馆数据素养教育呈现出以下特征需求:首先,教育对象呈现多样化。在传统的图书馆信息素养教育模式下,图书馆信息素养教育的对象用户主要由到馆读者、在校师生、网络用户等三大部分组成,但在“互联网+”环境下,图书馆的数据素养教育用户既包括线上线下、空间内外等多种群体,还包括图书馆+其它行业融合链上的用户,如已经开展的学科服务对象、“互联网+”环境下服务的医疗卫生人员对象等。其次,教育形式呈现多元化。“互联网+”环境下的图书馆数据素养教育将不再局限于讲座、培训,而是基于数据管理规定、信息业务流程规范与数据资源挖掘开发等多个形式。

3.2“互联网+”时代的图书馆数据素养教育方式

在国务院2015年7月1日公布的《国务院关于积极推进“互联网+”行动的指导意见》[6]中对互联网+发展的保障建设要求中,明确提出了加强智力建设要求,并从加强应用能力培训、加快复合型人才培养、鼓励联合培养培训、利用全球智力资源给出了若干指导意见。笔者认为这些意见也对“互联网+”环境下的图书馆数据素养教育提供了很好的思路,有值得借鉴之处,“互联网+”环境下的数据素养教育发展对策也应在传统的信息素养教育基础上融入这些智力建设保障方式,扩展教育途径与思路,形成以传统信息素养教育方式如选修课、培训、讲座、在线培训等为主,以图书馆+服务如科学数据管理与应用、数据与分析等为补充的教学模式。

(1)以传统的选修课、培训、讲座、在线培训为主的教育方式。尽管MOOC、网络教育、在职继续教育等已成为了信息社会教育的主要部分,但对以传统的课堂教学模式为主的教育现状,显然已在传统的信息素养教育过程中取得了成功的选修课、培训、讲座、在线培训,以及新兴的MOOC等教育模式仍然适用于“互联网+”时代的数据素养教育。值得注意的是,随着社会对民众数据素养要求的提高,学校特别是高校愈加重视对学生的数据素养培养,如北卡罗莱纳州立大学早在2005年就开办了数据分析专业硕士,除了注重学生的沟通技能和团队能力培育外,其所培养的学生还要接受一系列与数据有关的训练,像数据挖掘、优化,数据库管理以及数据安全、客户分析、财务分析等[7]。

(2)以图书馆+服务过程中的融合实践、数据管理等为补充方式。“互联网+”环境下的图书馆+服务,必定是一个图书馆与其它领域深度融合、互联互动、驱动创新的信息转化、知识流动过程,图书馆所服务的用户也可能在享受知识服务的同时而并未进入到图书馆服务空间,如基于数据的管理与提交、与关联等服务,因此,在这样一种非典型的用户-图书馆二元服务模式下,图书馆的数据素养教育就需要别出心裁,如通过数据管理政策和流程实现互联网与数据处理工具的素养培养、通过实践操作实现数据应用态度与辨别素养培养、通过跨界数据(如跨学科、跨媒体、跨平台、跨文化)的整合与应用来实现数据辨别能力的培养等,最终实现对用户的数据敏感能力、数据收集能力、数据分析与处理能力、数据的利用能力和数据批判能力即数据素养的教育培养。

4结语

数据素养如信息素养意义并不是一种单一的技能,而是一种关乎所有人在大数据时代、“互联网+”环境下的一种基本生活技能的、复合的、横跨的重要技能,这种技能能够促使个体获得其他的一些重要技能(如,语言、数学、学会学习、文化意识等)[8],以致有人将其标记为“数字时代的生存技能”[9]或者“信息社会的重要资产”[10]。图书馆作为民众优化知识结构、提高生活生存技能的重要场所,一直担负着提供素养教育的重任,但“互联网+”环境和大数据时代的到来为图书馆继续担负这种责任增加了诸多影响因素,因此分析“互联网+”环境下的图书馆数据素养交友需求与特征有着一定的现实意义。

参考文献:

[1]阿里研究院.互联网+从IT到DT[M].北京:机械出版社,2015:5-7.

[2]何晓阳,吴治蓉.美国信息素养评价标准的比较研究[J].中华医学图书情报杂志,2011,20(4):1-3.

[3]SchieldM.InformationLiteracy,StatisticalLiteracyandDataLiteracy[J].IASSISTQuarterly,2004,28(2/3):6-11.

[4]SchneiderR.Researchdataliteracy[M].WorldwideCommonalitiesandChallengesinInformationLiteracyResearchandPractice.SpringerInternationalPublishing,2013:134-140.

[5]HuntK.TheChallengesofIntegratingDataLiteracyintotheCurriculuminanUndergraduateInstitution[EB/OL].[2015-09-06]..

[8]王佑镁,杨晓兰,胡玮,等.从数字素养到数字能力:概念流变、构成要素与整合模型[J].远程教育杂志,2013(3):24-29.

[9]Eshet-Alkalai,Y.Digitalliteracy:Aconceptualframeworkforsurvivalskillsinthedigitalera[J].JournalofEducationalMultimediaandHypermedia,2004,13(1):93-106.

大数据时代的概述范文第5篇

关键词:本体;构建方法;螺旋模型

中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)24-5913-04

Research on Domain Ontology Building Method

YIN Mei

( Institute of Information Engineering, Lianyungang Technical College, Lianyungang 222000, China)

Abstract: This paper introduces the basic concept of the domain ontology, domain ontology construction method and some problems in Constructing Ontology; introduced the software engineering spiral development model. Through drawing lessons from the other domain ontology construction method and a spiral development model, put forward a kind of new project of domain ontology construction meth od.

Key words: ontology; construction method; spiral model

1本体构建方法

本体原本是哲学上的一个概念,主要探讨现实世界的基本特征。近年来,人工智能、语义web相关领域的学者也开始将本体论的观念用在知识表达上,使其成为一种能在语义和知识层次上描述信息系统的概念模型的建模工具。目前Ontology已经被广泛应用到包括计算机科学、电子商务、数据挖掘、智能检索等在内的诸多领域。特别是做为语义Web的关键技术之一,本体及其相关技术已成为研究热点。领域本体描述的是特定领域(医学、地理、生物等)中的概念及概念之间的关系。

本体的构建主要有三种模式:一是人工模式,由领域专家借助工具完成本体构建;二是半自动模式,基于大量领域数据,在领域专家的协助下完成本体构建;三是自动模式,运用数据挖掘、人工智能等方法,基于大量的领域数据完成本体构建。上述三种模式各有优劣,人工模式代价较大,所构建的本体灵活性不足;自动模式构建的本体实施难度较大、准确性不高;而半自动模式可行性较好,已有不少专家提出不同的构建方法。目前业界公认的,为大家所熟知的本体构建方法[1]有:

1)IDEF-5方法

1980年美国空军公布ICAM工程中首次使用IDEF名称,是在结构化分析和设计方法为基础上发展的一套系统分析和设计方法。IDEF-5是其中一个版本,它通过图表语言和细化说明语言两种语言形式来获取某个领域的本体,通过过程流图和对象状态移动网图两种图表来获取、管理和显示过程[2]。基本流程如下:组织并确定范围;数据收集;数据分析;初始化本体建立;本体的精炼与确认。

2)Skeletal Methodolody骨架法(Uschold方法)

Mike Uschold & Micheal Gruninger的骨架法(Skeletal Methodology),专门用来创建企业本体,是相关商业企业间术语和定义的集合。基本流程如下:确定本体应用目的和范围;建设本体;评价;文档化。

3)Methontology方法

Methontology方法是Mariano Fernandez & GOMEZ-PEREZ等的人在开发马德里大学人工智能图书馆时提出的一种更为通用的本体建设方法。它结合了骨架法和GOMEZ-PEREZ方法,更接近软件工程开发方法。基本流程如下:规格说明书;知识获取;概念化;集成;实现;评价;文档化。

4)循环获取法

Alexander Maedche等的循环获取法是一种类似环状的结构。基本流程如下:资源选取;概念学习;领域集中;关系学习;评价;如此循环。

5)七步法

该方法由斯坦福大学医学院开发的主要用于领域本体的构建。基本流程(七个步骤)如下:确定本体的专业领域和范畴;是否可以复用现有本体;列出本体中的重要术语;定义类和类的等级关系;定义类的属性;定义属性的分面;创建实例[3]。

不管是哪种构建方法,领域专家在构建本体时都应遵循以下原则[4]:术语清晰、推理一致、可扩展性、最小编码、本体约定最小。

2目前本体构建中存在的问题

目前的领域本体构建还处于探索性研究阶段,在这个过程中还存在许多问题,主要问题有:

1)手工构建,自动化程度不高。

目前本体的构建方法主要依赖领域专家与本体研究小组的手工构建,多数起源于某一具体的开发项目,如Methontology方法、七步法等。开发代价较大,所构建本体只适用于特定项目范围,灵活性及自动化程度不高。

2)无统一构建标准,本体难以重用和共享。

目前每个本体开发团队都有自己的本体建模标准、开发指导原则、设计标准,难以实现本体的共享和重用。知识工程界定义统一本体构建标准,已成为研究重点。

3)无统一评价标准。

目前尚无统一的评价方法和工具,国内外专门对于本体评价的理论研究也相当少。而在本体构建的每个生命周期都应进行合理的评价,有助于本体在下一周期的进化。

3螺旋开发模型

螺旋模型[5]是一种演化软件开发过程模型,它兼顾了快速原型的迭代的特征以及瀑布模型的系统化与严格监控。它的每一个周期都包括需求定义、风险分析、工程实现和评审4个阶段,由这4个阶段进行迭代。软件开发过程每迭代一次,软件开发又前进一个层次。采用螺旋模型的软件过程如图1所示。

图1采用螺旋模型的软件过程

螺旋模型沿着螺线进行若干次迭代,图中的四个象限代表了以下活动:

1)制定计划:确定软件目标,选定实施方案,弄清项目开发的限制条件;

2)风险分析:分析评估所选方案,考虑如何识别和消除风险;

3)实施工程:实施软件开发和验证;

4)客户评估:评价开发工作,提出修正建议,制定下一步计划。

螺旋模型支持用户需求的动态变化,为用户参与软件开发的所有关键决策提供了方便,有助于提高目标软件的适应能力。其生命周期的不断进化和本体的构建过程是非常相似的。

4工程化的领域本体构建方法

我们详细研究了上述几种本体构建方法,发现骨架法主要提供了本体开发的指导思想,对细节描述较少,七步法更多描述的是怎样形式化表示知识,对前期知识的收集、分析以及开发人员与领域专家怎样合作表述不够详细[6]。而在实际工作中,如果得不到领域专家的指导,开发人员往往不能按计划完成任务。因此该文结合上述本体构建方法及参照软件工程的螺旋开发模型的迭代特点,得出适合工程化的领域本体的构建方法所图2所示,在得不到领域专家的指导的情况下,由开发人员先快速开发出原型本体,在通过后续的进化工作进化本体,同时在构建的过程中考虑该领域本体库中是否有现有本体可以共享和重用[7]。我们以构建高校教务管理领域本体为例,通过它来具体实现工程化的领域本体构建方法。

图2本体开发过程

第一步本体领域设定。主要包括确定本体将覆盖的专业领域、应用目标、作用范围、系统维护者与应用对象。在此过程中要注意把握领域范围的大小,一味扩大本体范围会增加开发成本及工程开发难度;本体范围太小无法满足实际需求,所以应尽量使本体在较小范围内最大满足实际需求。高校教务管理领域本体主要是把现实世界中有关教务管理的活动(课程、学生、教师、教学资源等之间的关系)抽象为一组概念及概念之间的关系。构建该本体的作用是方便教务管理者统一、合理的分配教学资源并为优化教学资源提供决策。本体的系统维护者是教务处的工作人员,应用对象是最终用户,即广大教职工和在校学生。

第二步确定概念、关系等。这一步主要包括列出本体中的重要术语、概念;定义领域中概念及概念之间的关系;定义类的属性;定义本体的层次结构。在此过程中重点是确定领域本体的核心概念,要保证核心概念及其关系一定是该领域相关的并且可以用精确的术语表达出来。下面列出教务管理领域本体的重要术语、概念、概念之间的关系、类的属性、层次结构。

1)重要术语、概念。概念所代表的客观事物可以是具体的,也可以是抽象的。在教务管理领域本体中包括的重要术语、概念有:课程;教师;学生;所选课程;成绩;教学日历;教学考核;教师培训;教学设备;教材等。

2)概念及概念之间的关系。概念及概念之间的关系主要有四种:part-of;kind-of;instance-of;attribute-of。我们通过分析,在教务管理领域概念及概念之间的关系主要有:

part-of:表达概念之间部分与整体的关系。例如:教学资源是整体概念,教学设备,教材,教室是教学资源的一部分。

kind-of:表达概念之间的继承关系。例如:教学日历与教学材料是继承关系;教学考核,教师培训与教务过程是继承关系。

instance-of:表达概念的实例与概念之间的关系。例如:20020206019是学号的一个实例;陈芳是教师姓名的一个实例。

attribute-of:表达某个概念是另一个概念的属性。例如:课程代号是课程的一个属性;教工号是教师的一个属性。

3)类的属性。类的属性主要有数据属性和对象属性。数据属性主要描述类实例与RDF文字或XMLschema[7]数据类型间的关系;对象属性描述两个类的实例间的关系。例如:学号,姓名是学生的数据属性;教室,教材是教学资源的对象属性。

4)类的层次结构。通过层次结构,形成了一个领域知识的框架体系。类是本体中最主要的知识单元,用以对概念明确的、格式化描述[8]。类具有继承性并有一定的层次结构。层次结构的设计一般有自顶向下法、自底向上法或综合法三种方法。我们采用的是自顶向下的方法。先定义顶级类,而后通过添加子类将这些概念细化。

第三步建立本体模型,这一步主要包括选择合适的构建本体的开发工具。目前开体开发工具有数十种,其中较著名的有:Protégé、Ontolingua、OilEd等。该文选用的是Protégé工具(Protégé3.4.4版本),构建的本体模型(部分)[9]如图3所示。

第四步对领域本体进行编码、形式化。通过适当的本体描述语言对领域本体进行形式化编码。这是非常重要的一环,为了让机器可理解,需要用形式化定义的方式对本体的术语进行编码。编码的方法主要有:OWL、RDF、XML等等。在这一步中,要检查是否符合形式化、便于机器处理的要求。在建模过程中,如果出现类缺失、矛盾等情况,使其不能明确的表示,无法组成严格的逻辑关系,需要返回上一步,重新定义概念或进行求证。

第五步进行本体的测试和评价。在很多本体的构建方法中,经过上面几个步骤,已经意味着本体构建的完成。事实上在成熟的软件工程的开发方法中,系统测试是非常重要的一步,因此本体也需要测试和评价。本体测试的内容主要包括:是否满足用户的需求;是否遵守本体的构建原则;是否清晰地定义了本体中的概念或术语;概念是否全面,概念之间的关系是否完整等。

第六步本体建立。建立的本体原型在使用的过程中不断进化,可以通过集成新的本体、由专家定义新的概念和关系、通过机器学习等方法进化。

共享和重用是本体的一个主要特点,进化的本体也可以存入本体库,加以重用。重用已建好的本体时,重点是选择和自己概念模型中语义和实现一致的术语定义。

5结束语

目前领域本体构建尚无一个统一、完善的标准,该文通过对当前几种常用的本体构建技术的分析比较,结合螺旋开发模型,初步提出一种在无领域专家参与情况下的工程化的本体构建方法,并通过构建简单的教务管理领域本体模型(部分)对其进行有效性检验。

参考文献:

[1]张囡囡.面向语义网的领域本体半自动构建方法的研究[D].大连:大连海事大学,2008.

[2]鞠可一.基于本体的企业状态数据模型研究[D].镇江:江苏科技大学,2007.

[3] Uschold M,Gruninger M.Ontologies:Principles,Methods and Applications[J]. Knowledge Engineering Review,1996,11(2):93-155.

[4] Suryanto H.Discovery of Ontologies from knowledge bases[C].British Columbia:Proceedings of the 1st Internationl Conference on Knowl? edge Capture,2001:171-178.

[5]维基百科[EB/OL]..

[6]韩韧,黄永忠,刘振林,等.OWL本体构建方法的研究[J].计算机工程与设计,2008,29(6):1397-1399

[7]李勇,张志刚.领域本体构建方法研究[J].计算机工程与科学,2008,30(5):129-131.