首页 > 文章中心 > 云计算数据论文

云计算数据论文

云计算数据论文

云计算数据论文范文第1篇

科学工作流中的任务之间的依赖既包含控制依赖,也包含数据依赖。连接两个任务(t1-t2)的边表示任务t1的输出作为任务t2的输入,工作流中的每个任务可能读入一个或多个输入文件,然后写入一个或多个输出文件。在工作流层,文件可以分为3种类型:输入文件、中间文件和输出文件。不同类型的文件具有不同的生命周期。(1)输入文件。输入文件不由工作流中的任务产生,文件通常驻留在用户存储服务器上。在运行时,可以从一个存储服务器传送到另一个存储服务器,然后在这里被检索,也可以在存储服务器上直接检索。图1中的F-input就是一个输入文件[10]。(2)中间文件。在工作流运行过程中产生但无需长期保存的文件称为中间文件,将在所有使用它的任务结束后被立即删除。图1中的f-t1-o1、f-t1-o2、f-t2-o1、f-t2-o2都是中间文件。(3)输出文件,由工作流产生,对用户有用并且在工作流结束后需要永久保存的文件。在工作流执行过程中,这些文件通常被转移到常驻存储中。图1中的F-output就是工作流的输出文件。值得注意的是,输出文件不一定必须是工作流中最后任务的输出,也可能是中间环节任务的输出数据。

2云计算环境下工作流执行模型

科学工作流由工作流管理系统提交和管理,工作流管理系统驻留在提交主机,协调调度工作的流执行。工作流管理系统将工作流中的任务分配到虚拟机的工作节点,任务的执行所需要的数据可以从一个或多个输入数据存储点输入。中间文件在工作流执行期间驻留在数据暂存站点。当工作流结束时,工作流管理系统删除中间数据,同时将输出文件从暂存站点转存到输出站点,然后永久性保存。根据工作流管理系统和目标执行环境的不同,多个数据站点可以协同工作。例如,在输入数据已经驻留在计算节点的情况下,该计算节点和输入点是相同的。图2显示了具有两个任务的工作流,来说明工作流所需的文件是如何在逻辑上独立的站点之间移动的。

3对象存储应用于科学工作流中的数据管理

对象存储系统主要包括存储服务器、元数据服务器、客户端等组成部分,其核心思想是将数据的读和写与元数据存储分离,如图3所示。存储服务器主要负责数据存储、智能的数据分布以及每个对象元数据的管理;元数据服务器主要提供对象存储访问、文件和目录访问管理以及客户端缓存的一致性管理等功能。为了提供可扩展的可靠服务,对象存储器的内部结构非常复杂。例如,亚马逊的简单存储服务(S3)[12]通过REST(RepresentationalStateTransfer)、SOAP(SimpleObjectAccessProtocol)和APIs(ApplicationProgrammingInterfaces)提供检索和删除操作;它将一个对象的多个副本布局在存储服务器上以提供错误情况下的冗余。很多网格存储服务和为数据密集型应用设计的协议可以认为是对象存储,这种架构对构建来自不同的执行环境的数据管理模式而言具有重要的借鉴意义。针对面向大数据工作流,利用对象存储的优点,本文提出两个方案:一是工作流中的3类数据文件都使用远程的对象存储;二是在计算节点上使用共享文件系统作为数据暂存点来存储中间数据。

3.1单独使用对象存储

在这种情况下,所有的数据都存储在对象存储系统中,工作流管理系统需要从对象存储中无缝检索数据,为本地工作流任务使用。在这样的设置中,工作流管理系统从对象存储中检索输入文件和中间文件,然后,工作流中的任务对本地的POSIX文件系统做必要的输入/输出设置,任务完成时,工作流管理系统能够将中间数据和输出数据存储到对象存储中。这样,即使工作流被部署在分布的资源上,科学应用只需要对POSIX做常规的输入/输出设置,就能完成工作流的执行。工作流管理系统与对象存储的多次交互增加了工作流执行的开销,而该开销与分布资源上的计算相比并不算大。对象存储中既有输入数据也有中间数据,只要工作流系统与对象存储能够无缝检索和存储,那么任务执行可以在任何地方。如图4中,任务t1可以在校园计算机集群上完成,而属于同一工作流的任务t2可以在亚马逊的EC2上完成,t1、t2使用亚马逊的S3对象存储作为中间数据文件的暂存。总之,数据存储和执行环境的分离,使得工作流在分布资源上的执行更为容易。一个常见的情况是,当计算需求超过本地或校园计算所提供的资源时,将使用云资源。图4也说明了工作流的数据移动情况。在这里,文件F-i被传送到云中的高性能计算集群工作节点的本地文件系统。任务t1从该节点开始,读入输入文件F-i,然后写入本地文件系统的中间文件F-t,F-t被传回到作为数据暂存点的对象存储中。F-t文件将从对象存储中被检索进入到EC2节点的本地文件系统。任务t2启动后读取F-t文件(该文件是由t1创建),然后将F-o写到本地磁盘,再传送到对象存储中。以上所有的数据传输工作都由工作流管理系统完成。科学工作流中单独使用对象存储的明显不足之处是,数据重复传输会引起在大数据处理过程中的延迟。工作流中的多个任务使用相同的文件,所以重复传输是显而易见的[13][14]。对象存储将对同一资源的重复请求认为是不同的请求,对象存储通常以其良好的扩展性减轻这种重复对工作流性能造成的影响。另外,工作流系统可能在本地节点选择缓存文件,或者利用集群中的共享文件系统来减轻此问题。延迟是整个工作流性能应该关注的问题,云对象存储的设计提供了很高的带宽,但对单个检索或对象操作可能需要数秒钟的延迟。对具有大量文件的数据密集型的科学工作流而言,这种延迟显著增加了工作流运行的时间开销。大型工作流中的另一个问题是多数中间文件需要被传输到对象存储中由相关后续任务检索并使用。由于商业对象存储提供以GB为单位的存储,并按迁移、存储和检索的请求数付费,所以重复传输也就意味着费用的增加。

3.2共享文件系统作为数据暂存

解决由数据重复迁移造成的延迟问题的方法之一,是工作流管理系统将中间文件暂存在POSIX兼容系统中,由多个计算节点文件系统共享,然后在一个资源节点上运行所有的计算。文件共享系统保存了工作流管理系统中所有任务的中间数据,在这种情况下,只有输入输出文件存储在对象存储中。由于中间文件不需要在对象存储与计算节点之间传送,从而可降低使用商业云对象存储的费用。如图5所示,是一个具有文件共享系统的高性能计算环境下具有2个任务的简单工作流。文件F-i被工作流管理系统传送到集群文件共享文件系统。任务t1在计算节点1上启动,从共享文件系统中读入文件F-i,然后将中间文件F-i-t写入到共享文件系统中,任务t2在计算节点2上启动,从文件共享系统中读入F-i-t(由任务t1创建),然后将其输出写入到F-o,F-o由工作流管理系统送到对象存储中,这种方法的优点在传统的有高速并行超级计算环境中尤为显著。例如,XSEDE(ExtremeScienceandEngineeringDiscoveryEnvironment)节点对多数科学工作流点有极大扩展性[15]。值得注意的是,如果第一个计算节点忙而需要将计算溢出到另一个节点时,这种随数据布局任务的方法,损失了布局计算的灵活性。以上两种方法各有所长,选择使用哪种方法取决于工作流的类型和工作流执行的目标环境,这就要求工作流管理系统的开发具有弹性的数据管理方案,允许科学家有效使用对他们有用的基础设施。工作流中的数据管理方案应该具有如下特征:首先,科学工作流管理系统允许任务和数据后绑定,任务依据资源的可用性映射到计算资源上,任务在执行时能够发现资源,并从众多存储中选择数据暂存位置;其次,在科学家只有一个计算资源可用的情况下,允许任务和数据的静态绑定;再次,支持使用不同协议和不同安全机制访问对象存储。

4相关工作

工作流管理系统处理数据的方法很多,Swift[16]采用与本文所描述的第二种模式类似,使用本地文件系统或共享文件系统作为数据缓存,提交主机扮演数据暂存的角色。系统首先选择一个计算站点来运行一个任务,然后将数据从提交主机推向该站点的文件系统,任务执行后,输入的文件被回传给提交主机,中间文件被留在共享文件系统中以便后续任务的执行。相对而言,本文将数据文件(包括输入、输出、中间文件)与提交主机分离,并使用不同的协议,具有更好的灵活性。其他工作流管理系统如Kepler[17],Triana[18]和Taverna[19]关注的是流式工作流中任务的调度和其他Web资源的调用,这些工作流具有图形化的用户界面,允许用户搭建具有不同部件的工作流,但通常没有涉及访问大量数据集的问题。这些工作流中的数据管理很大程度上依赖于用户,数据管理自动化非常有限。Kepler[20]引入了一个MapReduce执行器,允许执行采用MapReduce算法的混合工作流。Hadoop平台通常用来运行数据密集型的科学应用,它所提供的文件操作与POSIX类似,允许随机读,但不允许随机写。在这种情况下,Hadoop平台负责将输入文件切片并分布在各个数据节点。而本文提出的方法主要针对工作流运行在多个不同的执行环境中,代码不能MapReduce的情况。在XSEDE中,任务利用分布式文件系统如GPFS-WAN[21](GeneralParallelFileSystem-WAN)来访问数据,分布式文件系统支持POSIX操作,可以对输入和输出文件进行远程访问。研究表明[22],将大型数据集布局在本地计算节点会更好,但这一策略也会带来新的问题,如不同类型工作流的融合以及数据布局策略算法等。

5总结

云计算数据论文范文第2篇

关键词:云计算;就业信息服务;Hadoop;SaaS

中图分类号:TP39 文献标识码:A DOI:10.3969/j.issn.1003-6970.2015.05.010

0 引言

高校毕业生逐年增加,国内就业形势严峻。政府、高校、用人单位和家庭都从不同的角度高度关注就业工作,就业信息化服务的建设刻不容缓。

云计算技术具有高效、可靠、高可扩展性和易用性的特征,被很多领域广泛的使用。本文讨论的内容是如何将云计算技术应用到就业信息化服务中,从而高效率、高质量的做好就业服务工作。

Hadoop是由Apache开源组织提供的分布式系统基础框架,能够有效的解决海量数据分布存储和分布计算,是云计算技术应用层面很好的解决方案。

1 高校就业信息系统研究现状

高校就业管理信息研究和应用已经开展了很长时间,现在几乎所有高校都建立了就业信息管理系统或者平台,但是这些系统存在以下几方面问题:第一,系统侧重毕业生和就业信息管理,或者只是学生管理信息系统的一部分,缺乏服务机制,无法实现学生、教师和用人单位的联动。第二,系统资源利用率低,系统运行效率低、安全可靠性和可扩展性差,给学生数据安全带来很大的隐患。第三,系统数据利用率低,多数集中在简单的查询,很难获得有益的知识,提供决策服务。第四,系统缺乏个性化定制,很难适应当前就业工作不断调整的需要。

2 构建基于云计算的高校就业信息服务平台

本文从三个方面论述如何构建基于云计算的高校就业信息服务平台:一是,如何构建就业信息云服务平台,为政府、学生、高校和用人单位等用户提供服务。二是,构建基于云存储的数据平台,提高资源利用率,使系统高效可靠,并且具有高可扩展性。三是,利用云计算技术进行并行、高效、可靠的数据处理,最后将平台的数据服务提供给用户。

2.1 构建高校就业云服务平台

根据提供服务资源的类型,云服务被分为三个类别:SaaS(软件即服务)、PaaS(平台即服务)、IaaS(基础设施即服务)。

高校就业信息云服务平台采用SaaS模式,通过浏览器和移动终端将软件作为云服务提供给所需用户。用户无需购买软件和维护软件,用户根据业务需求购买相应的云服务,云服务提供商管理相关软件并实施软件的维护。这种方式大大降低用户在软件购买和维护上人力和物力的开支。高校就业信息云服务平台自底向上分别是“云数据层”、“数据服务层”、“业务服务层”、“云服务层”和“应用层”,每层之间采用松耦合,提供相互访问的接口,用户不必关注层内部逻辑,平台架构如图l所示。

(1)数据存储层

高校信息服务平台的数据主要包含学生数据、用人单位数据和高校相关数据,数据是作为平台的基础。为了提供便捷、高效、可靠的数据访问,数据存储层采用云存储技术实现,后面会详细论述。

(2)数据服务层

数据服务层建立专门进行云数据层访问的接口程序,用户通过webservice或者API进行加密数据的访问,数据的具体存储对用户是透明的,这也有效的提高数据安全性,并且为数据的扩展提供基础。

(3)业务管理层

业务服务层包括高校信息服务平台所有业务,具体包括应聘招聘、就业指导、毕业生困难帮扶、创业等服务内容,这些业务服务于政府、用人单位、高校、学生和社会等不用的用户。由于就业工作随着时间的推移会受到就业形势、政策等很多因素影响,从而导致就业工作业务和用户发生不断变化,所以就业信息服务平台业务服务层要具备高扩展性。基于以上的要求,我们构建了业务服务控制台,业务服务被设计为可插拔式,每项业务可以被挂载在控制台,或者从控制台被卸载,也可以设定业务接口、执行业务升级操作等服务。

(4)云服务层

云服务层将业务服务层的内容以应用接口的方式提供给应用层,提供的方式是为业务服务层建立API接口和webservice接口。应用层可以通过编程的方式调用业务接口,实现业务访问。

设定中文信息处理和语音识别接口,用户可以通过输入中文关键字或者语音调用业务,在应用层和业务层之间建立更加友好的数据传送,也为移动终端用户提供更加便捷的操作方式。

(5)应用层

应用层直接面向实际用户,实现就业信息云服务平台不同类型的用户图形界面,从而能够适应不同用户的不同需求。用户既可以通过个人电脑上的浏览器访问获得云服务、也可以使用智能移动终端的应用程序或者微问云服务。

2.2 建立基于Hadoop的云数据存储

高校就业信息服务平台需要大量的数据进行支持,而且数据逐年增加。利用云存储技术主要解决快速、高效的处理海量数据,从而达到易扩展、低成本、易管理、高效和安全的设计原则。Hadoop软件框架的HDFS(分布式文件系统)提供了具备高扩展性、高容错性、高可靠性、高效等特点,并且可以部署在低廉的硬件上,从而降低成本。基于以上内容,高校就业服务平台的数据存储通过HDFS分布式存储技术实现云存储,Hadoop的具体部署如图2所示。

2.3 建立基于Hadoop的数据服务

数据服务是就业信息云服务平台重要的业务,用户需要了解学生年龄、民族等数据分布,需要了解就业数据分布,需要了解用人单位人才需求分布,需要了解就业数据内部和外部存在的各种联系。数据服务从海量数据的计算中获得,利用云计算技术能够高效、低成本的解决计算问题,Hadoop为云计算提供了有效的解决方案,它提供了MapReduee模型,这个模型解决了传统并行计算在易编程性上的瓶颈,程序员可以更容易的开发分布式并行计算程序。MapReduce同HDFS一样采用一个主控节点和多个计算节点的架构,如图1所示。将大规模数据集分成多个小数据集,然后这些数据集分给多个map节点进行并行处理产生中间结果,最后在reduce阶段对这些结果汇总,得到最终结果。

云计算数据论文范文第3篇

论文关键词:云计算,网格计算,信息安全,云安全

 

0 引言

信息作为一种资源,它的普遍性、共享性、增值性、可处理性和多效用性,使其对于人类具有特别重要的意义。信息安全的实质就是要保护信息系统或信息网络中的信息资源免受各种类型的威胁、干扰和破坏,即保证信息的安全性。信息安全服务至少应该包括支持信息网络安全服务的基本理论,以及基于新一代信息网络体系结构的网络安全服务体系结构。

1 云计算简介

何为云(cloud)?云实际上就是互联网(Internet)的别称,其实是指分布在Internet中的形形色色的计算中心,包含成千上万甚至几十万、几百万台计算机或服务器。用户不再购买高性能的硬件,也不再购买或开发各种功能的软件,而是使用任何可上网的设备,连接'云' ,利用'云'提供的软件或服务,直接在'云'上处理并存储数据。云计算的概念最早可以追溯到图灵奖得主Jone McCarthy 在60年表的观点:“计算有可能在未来成为一种公共设施。”进入21世纪后,SaaS (Software as a Service),软件服务的概念越来越广泛的应用于业界。随后,从2007年开始,云计算开始出现,包括Google、Amazon、IBM、Microsoft等业界的领袖企业都宣布了各自的与技术项目。

简言之网格计算,云计算( cloud computing)是一种基于Internet的计算。在云计算中,存储和运算将不再运行在本地计算机或服务器中,而是运行在分布于Internet上的大量计算机上,也就是说,云计算通过把原来由个人计算机和私有数据中心执行的任务转移给分布在Internet上由全体用户共享的大型计算中心来完成,实现了计算机硬件、软件等计算资源及对这些计算资源进行安装、配置与维护等服务资源的充分共享论文服务。

但是云计算远远不止这些。云计算目前的主要架构是基于一个新一代的数据中心,提供虚拟的计算和存储资源。而这些资源的消费和使用,可以按照事先规定的可以计量的标准进行收费。

2 云计算的安全问题

尽管很多研究机构认为云计算提供了最可靠、最安全的数据存储中心,但安全问题是云计算存在的主要问题之一。

表面上看,云计算好像是安全的,但如果仔细分析, '云'对外部来讲其实是不透明的。云计算的服务提供商并没有对用户给出许多细节的具体说明,如其所在地、员工情况、所采用的技术以及运作方式等等。当计算服务是由一系列的服务商来提供(即计算服务可能被依次外包)时,每一家接受外包的服务商基本上是以不可见的方式为上一家服务商提供计算处理或数据存储的服务, 这样,每家服务商使用的技术其实是不可控的, 甚至有可能某家服务商会以用户未知的方式越权访问用户数据。

总的说来, 由云计算带来的信息安全问题有以下几个方面:

1、特权用户访问

若使用云计算,机密数据将由公司外面的人员来处理,所以可想而知:不是公司的员工完全可以访问这些数据。

2、法规遵从

在《萨班斯-奥克斯利法案》当道的时代,公司有责任实施严格的数据监控和归档级别。即便一家公司与外部的云计算服务提供商签订了合同,这些法规仍要求这家公司负有责任。云计算服务提供商应当提交审计和安全方面的证书,确保对方能够履行约定的承诺。

3、数据位置

若使用云计算,用户不知道自己的数据到底存放在什么地方。服务器可能建在马来西亚、加拿大或者美国的新泽西州,说不定同时建在上述三个地方。

4、数据隔离

当然,云计算提供商会使用SSL来保护传输中的数据,但当公司的数据位于存储设备中时,可能与其他公司的数据共用一只“虚拟保管箱”。公司的数据与别人的数据能经过适当隔离吗?

5、可用性

从理论上来说,如果用户使用云计算服务提供商,没有必要担心自己的数据会消失――这些提供商很容易采用冗余机制把你的数据复制到众多地方,这样万一系统崩溃,仍可以高枕无忧。

但公司的员工能不能随时访问完成工作所需的数据呢?比方说,要是虚拟管道受到堵塞会怎样?要是提供商自身出现的某种内部故障导致你无法访问自己的关键数据,又会怎样?

6、灾难恢复

希望最糟糕的永远不会发生;任何重大的灾难也不会发生在你、你的提供商或者整个世界头上。但你的提供商必须为此作好防备。

7、调查支持

开展内部的法律调查向来就不是容易的事,因为这需要清查可能散布在实体位置和虚拟位置的大批文档。如果你使用云计算服务提供商网格计算,那么开展这种调查更是困难重重:许多客户的数据也许放在一块儿,散布在地点不断变化的一系列数据中心。

8、存活能力

你的提供商会被收购吗?或者更糟糕的是,会破产吗?如果是这样,对方需要多久才能把数据交还给你、而且采用的格式让你可以导入到另一家提供商的基础设施上?

9、降低风险方面的支持

你的员工开始使用外部提供商时,会经历一个学习过程。这家提供商提供的界面用起来多容易?提供商是否帮助你的管理人员设置监控政策?又采取了哪些措施来防范恶意软件和网络钓鱼?

3 云计算中确保信息安全的具体方法

尽管云计算存在安全问题,但它仍然给信息安全带来了机遇论文服务。

在云计算方式下,数据是集中存储的,这样至少给数据安全带来了两个好处:

降低了数据被盗、被破坏和外泄的可能。这也是云计算服务商讨论最多的一个优点。在云计算出现之前,数据很容易被泄露,如便携式笔记本电脑的失窃、计算机维修时的数据被盗(如'艳照门'事件) 。而随着云计算的推广应用,用户可以将自己的数据存储在'云'中,只要用户能够接入Internet,就能根据需要随时进行访问,根本就用不着自己随身携带,也用不着自己去维护或维修。

能够更容易地对数据进行安全监测。数据集中存储在一个或若干个数据中心,数据中心的管理者可以对数据进行统一管理,负责资源的分配、负载的均衡、软件的部署、安全的控制,并能更可靠地进行数据安全的实时监测以及数据的及时备份和恢复。

3.1云计算用户的安全办法

1.听取专家建议,选用相对可靠的云计算服务提供商

用户在享受云计算服务之前,要清楚地了解使用云服务的风险所在?一般地,专家推荐使用那些规模大、商业信誉良好的云计算服务提供商。Gartner 咨询公司副总裁DavidCearley表示,“使用云计算的局限是企业必须认真对待的敏感问题,企业必须对云计算发挥作用的时间和地点所产生的风险加以衡量”。企业通过减少对某些数据的控制,来节约经济成本,意味着可能要把企业信息、客户信息等敏感的商业数据存放到云计算服务提供商的手中,对于信息管理者而言,他们必须对这种交易是否值得做出选择。基于内容感知的技术可以帮助用户判断什么数据可以上载,什么数据不可以上载,如果发现试图将敏感数据传到云端,系统将及时阻断并报警。

2.增强安全防范意识

幸运的是,一点点常识和一些简单的正确电脑操作练习可以将这类安全性失误的影响降至最低,避免将你的机密资料放在云端上,如果你真的放了网格计算,例如利用网上银行时,避免在网络咖啡厅、学校或图书馆内的公用电脑上进行,也别太随便给出自己真正的联络资料,避免每个账号都使用同一个密码,就算只更改一个字母也好。云计算下增强安全意识,清楚地认识到风险,并采取必要的防范措施来确保安全。

3.经常备份

存储在云里的数据,要经常备份,以免在云计算服务遭受攻击、数据丢失的情况下,数据得不到恢复。

4.建立企业的“私有云”

当数据重要到不放心放在别人管理的云里,就建立自己的私有云。私有云也叫企业云,它是居于企业防火墙以里的一种更加安全稳定的云计算环境,面向内部用户或者外部客户提供云计算服务,企业拥有云计算环境的自主权。与之相对应的是“公共云”,通过云计算提供商自己的基础架构直接向用户提供服务,用户通过互联网访问服务,但用户不拥有云计算资源。

5.数据加密后放到云端保存。

透明加密技术可以帮助企业强制执行安全策略,保证存储在云里的数据只能是以密文的形式存在,企业自主控制数据安全性,不再被动依赖服务提供商的安全保障措施。

3.2云计算服务提供商的安全办法

1.国家对云计算服务提供商进行规范和监督

美国加利福尼亚州公用事业委员会的CIO Carolyn Lawson认为:“从政府的角度来讲网格计算,我们不会将所有的数据信息都迁移到‘云’中,因为我们的数据包括个人社会保障号码、驾驶执照、还有子女信息等等,公众把他们的个人信息交给我们希望我们能够很好的保护这些信息。如果我们将这些信息交给一家云计算公司,而这家公司非法将这些信息出售的话,我们该怎么解决?我们要承担这个责任”。这充分显示了云计算安全问题的症结,即云计算公司的安全可信度成了当今云计算应用的主要障碍论文服务。

2.解决这个问题的根本办法不是依赖云计算提供商的自觉性,而是依赖政府部门或相当的权威部门强制要求云计算公司采用必要的措施,保证服务的安全性。

也许不久的将来,国家政府部门将制定相应的法规,对云计算企业强制进行合规性检查,检查包括厂商对客户承诺的不合理性、厂商信守承诺的程度、厂商在对待客户的数据的审计和监管力度。像检查自来水公司水的安全性那样,国家要对云计算厂商的安全性进行规范和监督。

3.云计算厂商采用必要的安全措施

云计算厂商内部的网络和我们大多数企业的网络没什么不一样的地方,其要实施的安全措施也是传统的安全措施。包括访问控制、入侵防御、反病毒部署、防止内部数据泄密和网络内容与行为监控审计等。

4.云计算厂商采用分权分级管理

为了防止云计算平台供应商“偷窥”客户的数据和程序,可以采取分级控制和流程化管理的方法。银行是一个很好的例子,银行虽然储存着所有客户银行卡的密码,但即使是银行内部员工,也无法获取客户的密码信息;同时,银行系统内也有一系列流程防止出现“内鬼”。例如,将云计算的运维体系分为两级,一级是普通的运维人员网格计算,他们负责日常的运维工作,但是无法登录物理主机,也无法进入受控的机房,接触不到用户数据;二级是具备核心权限的人员,他们虽然可以进入机房也可以登录物理主机,但受到运维流程的严格控制。

4 结束语

计算机网络信息的发展极大的促进了经济和社会的发展, 然而在网络中总有一些不安全的因素存在, 对于已经网络化的社会和企业而言, 正常的网络运行和信息服务是极为重要的, 因此深入做好计算机网络信息安全管理工作的研究必将推动网络应用的进一步发展。在云计算的背景下,无论是数据中的隐私,还是位置服务中的位置隐私,用户个人信息的保护显的尤为重要。在人们把数据放于本机硬盘都还嫌不够安全的今天,如何保证个人隐私不泄漏,将是云计算是否能够普及和攻克的另一难题。

参考文献:

[1]Cloud computing, Web-Based Applications That Change the Way You Work andCollaborate Online.

[2]中国云计算网,chinacloud.cn/default.aspx.

[3]谢四江冯雁.浅析云计算与信息安全,北京电子科技学院学报,2008年12月.

[4杨永川编著.信息安全.中国人民公安大学出版社.2007年1月

[5]张帅.安全云计算您准备好了吗[E B/OL ].IT专家网.security.ctocio.com.cn/security comment/435/8221435.shtml

云计算数据论文范文第4篇

关键词:云计算;数字图书馆;构建

中图分类号:G250.76文献标识码:A文章编号:1007-9599 (2012) 04-0000-02

一、引言

随着计算机技术的发展与商业运营的结合,云计算机已经被大家所熟悉,云计算带来的全新的资源共享和应用模式给软件服务方面带来了新的突破。本文在介绍云概念和功能的基础上,讨论了数字图书馆的构建过程和方法,重在分析数字图书馆用户对于协同工作也有着较高的要求,工作流管理与各种数字用户终端交互等功能,云技术充分利用了三种框架各自均有自己的目标领域的优势,并且将它们无缝地整合起来应用到数字图书馆建设开发中。云计算是现代科学技术的一次新的突破,同时也给在化图书馆信息资源建设带来了变革。

二、数字图书馆

数字图书馆是在图书情报学,网络通信技术应用,存储信息技术和多媒体计算技术以及数据挖掘发展起来的新型电子图书业务,云计算偏好特征数字图书馆服务未充分利用,云计算偏好特征在云环境中的远程服务识别中具有重要作用。

三、云计算的相关理论与形式

云计算的核心思想是将大量用网络连接的计算资源统一管理和调度, 通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力系统借助IaaS(基础设施即服务),PaaS(平台即服务),SaaS(软件即服务)等先进的商业模式把强大的计算能力分布到终端用户手中用户只要通过简单的个人终端就可以共享资源成超级计算这样的任务。在现代社会,云计算识别对整个数据服务组功能的诠释具有重要作用。

(一)云计算的内涵。云计算是在互联网中,提托分布式计算,并行与网格技术的发展,利用非本地和远程服务器的分布式计算机信息终端服务,云技术是全新的数据处理技术,云计算应用在图书馆数字资源中将得到充分的数据共享和资源应用。

(二)云服务的资源方式。云资源服务包括了服务器,存储介质,交换器与路由器,可以有效的将网路资源网路化,虚拟化,以多样服务的形式提供,这是云的底层功能,即服务 LAAS。典型的云服务主要由云端数据应用、索引与搜索、文档排序及用户呈现界面等部分组成。

(三)云的动态数据服务。直接查看属于这一类别的结果,词频特征及统计特征等,这些特征选取方法分别为分类器提供了不同的分类信息,具有很好的信息互补作用。因此,对云计算信息提取特征的不同将会直接影响分类器的性能。

(四)提供软件平台的云。这种形式的云计算采有移动、用户架构, 包括提供SAAS服务、软件API、开发环境、应用工具等。云技术充分利用了软件平台实现了目标领域的优势,并且将它们无缝地整合起来应用到数字图书馆建设开发中。

四、建设数字图书馆中的云技术

建设具有云计算技术的数字图书馆需要提高信息资源的高度整合,应用云计算可以让全世界的数字图书馆聚合在云端的存储器中,云技术是将IaaS、PaaS和SaaS三个云框架整合应用在一个Web应用系统中:IaaS框架应用在表现层的框架,PaaS用于完成表示层的表现逻辑和业务逻辑,SaaSg框架应用于各层关联,完成持久访问对象的注入和业务逻辑的事务管理,HIBERNATE框架应用在数据持久化层,实现关系数据库的对象化。云技术充分利用了三种框架各自均有自己的目标领域的优势,并且将它们无缝地整合起来应用到数字图书馆建设开发中。

(一)提高信息资源存储能力,应用云计算技术,云计算模式为在PaaS框架中Action Servlet所起的作用是接收由客户端发起的云端数据请求,Action取到网络请求数据对数据级别和业务级别进行校验,链接所带有的简单描述性文字,即为锚文本,实际上就是链接文本。

(二)若数据中涉及相关业务操作的则控制通过调用云端数据实现逻辑接口调用,最终实现调用服务组件。业务逻辑组件主要是一些网络分散文件,正式此类文件实现着业务服务接口。服务接口当接收到Action的服务调用时,首先服务接口通过一定业务流程进行逻辑判断。若Action的服务传入的是涉及云端操作。

五、云计算的数字图书馆建设

(一)建立基于云计算的信息检索平台

图书馆应结合云计算的理念, 采取适合的检索方法Web信息量飞速增长,如何从大量信息中迅速有效地检索出所需的信息成为了人们关注的问题,数字图书馆搜索引擎也因此走入了人们的生活。

(二)云计算数字图书馆的信息资源的聚类

云计算数字图书馆的信息资源使得任何两个词之间都有相似度的聚类分析能力;文本检索过程利用这个相似度矩阵来计算词语之间的语义关联乃至查询和文本之间的语义关联,计算效率:搜索结果聚类在线实时进行的,需要迅速的计算并返回结果,关键的步骤在搜索结果的获取,而聚类的构建算法的效率不太重要,因为输入的结果数量很少。

(三)云计算数字图书馆中的智能处理

云计算数字图书馆概念层次上实现分类查询扩展。该方法先利用云计算数字图书馆挖掘技术对数字图书馆按主题分类并与用户交互,在构建智能处理时,根据特征的关联相似度值对特征进行首次特征筛选,保留强相关的特征,将一些不相关的特征和弱相关特征过滤掉,然后依据特征与类的期望进行特征的二次选择,所以基于云计算的数字图书馆更好的应用了云技术,可以限制搜索范围,明确搜索目的使文档查找更容易,查询扩展更精确。

(四)云计算数字图书馆中在线文档处理和协同工作

云计算环境中的数字图书馆信息资源整应用了于分布式存储,分布式访问技术,在网络用户需要检索数据库信息可以利用多态的数据库检索系统,信息资源的整合需要SOA和Web2.0的融合,SOA提供了构建平台,在数字图书馆中云计算技术屏蔽了网络数据库的异构化,有效消除信息孤岛,实现多方快速的信息共享,用户可以在任何时间和地点进行需求检索,图书馆控制员需要对数据资源进行整合到云端的存储服务器中,制定访问规则。云计算在提供强大计算能力的同时,也提出了软件即服务(SaaS) 平台即服务(PaaS) 基础设施即服务(IaaS)等思想在这些功能中,数字图书馆的中应用云技术可以有效避免因为数据丢失带来的不便,也不用担心病毒的干扰,云中服务器中为我们提供了快速克隆技术,可以给图书馆提供一个安全,可靠的数据中心。图书馆用户迫切需要的是能够提供便捷而强大的在线文档处理机制,首先利用云计算分类技术将网络信息数据按主题分类,并建立主题分类语料库。

六、云计算数字图书馆的资源建设和数据存储

云计算数字图书馆的资源建设中使用的搜索引擎会通过文本信息来确定所指向网站的内容,一方面,锚文本可以用来评估锚文本所在的页面的内容,通常一个页面中增加的链接都会与页面自身内容有一定的关系利用数据挖掘及知识发现工具为用户在云海中利用信息资源提供指导。在云环境下, 同质的或者异质的图书馆结成联盟, 加强资源建设合作, 能够实现资源共建基础上的共享。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,从相关的信息数据源中筛选出所需的数据并将其整合成数据集用于数据挖掘;规律寻找是对数据准备整合出来的数据集进行分析,将其所含的规律找出来,数据仓库和数据挖掘的关系若将DataWarehousing(数据仓库)比喻作图书馆,DataMining就是在为图书馆的藏书编制索引的工作。

七、结束语

对于数字图书馆来说云计算技术是构建现代数字图书馆体系的新的思维方式,云计算通过提高云处理的能力可以有效减少图书馆终端的查阅负担,网络用户可以便捷掌控大量信息资源,云计算的出现使得人们能更方便地从数字图书馆获得更多的知识、信息、资源。

参考文献:

[1]金胜勇,张兴,吕亚娟.试论我国数字图书馆的发展趋势[J].新世纪图书馆,2009

[2]谢薇.试论数字图书馆的发展趋势及应对策略[J].情报理论与实践,2009

云计算数据论文范文第5篇

关键词:云计算资源消耗;监测技术;监测周期

1.引言

虚拟化技术使得云计算中心的规模越来越强大,为确保云计算数据中心能够高效运行,加强对云计算机数据中心的监测与管理就显得尤为重要。本文研究了云计算资源监测系统的关键技术和如何确定资源监测的周期,为进一步的云计算资源监测打下理论基础。

2.资源消耗监测系统的应用技术分析

传统的系统资源消耗监测技术有多种,例如采用PostgreSQL数据库,或采用Web应用程序等均可实现[1],在本文中,提出了另一种监测技术: XML技术[2]。XML(eXtensible Markup Language,可扩展标记语言)起源于SGML(Standard Generalized Markup Language),是SGML的一个简化版本,非常适合于在Web上或者其它多种数据源间进行数据的交换。XML技术相对于前几种监测技术而言,具有支持智能代码、智能搜索以及平台无关性的优点,目前已经成为一种通用的数据交换方式,被广泛作为跨平台数据交互的工具[3]。因此,云计算资源的数据监测系统数据收集能够采用XML来实现。

基于XML的树状文档结构特点,可以构建出云数据中心资源消耗监测模型,如图1所示:

图1中各层监控节点与物理机间的对应关系如表1所示:

资源消耗监测模型通过Socket实现三层结构间的连接[4]。Terminal层由Ordinary nodes组成,Ordinary nodes部署在云系统服务器上,对Terminal层Ordinary nodes的设计要求是对单个节点资源消耗信息通过XML进行获取,并向上层传递。在Ordinary nodes上配置XML获取CPU、内存、网络属性及各自的利用率,并将此信息传到Server层数据库中,再由Server层数据库汇总,并对数据进行稀释处理后,向Managers层数据库传递。在Managers层的中心服务器上部署Monitoring center并提供数据库访问接口,通过Web Interface以网页界面形式展示所调用Managers层数据库,形成监测结果,为实现云计算任务的调度提供数据支持。

3资源消耗监测系统监测周期的确定

资源消耗监测系统Terminal端的功能是实现节点监测,其监测周期是资源实际性能值与负载监测值之间决定其一致性的最主要的因素。一致性指标反应了监测资源的实际值与监测值之间的吻合情况。在云计算资源消耗监测中,主要包括CPU、内存和带宽三类资源的消耗,这三类资源消耗在实时负载均衡调度、资源节能调度、计算资源利润最大化等方面,均属于最重要的指标,对其确定一致性指标具有重要意义。

在此以CPU资源消耗为例,确定监测周期与一致性的关系。在实验中,采用每秒钟采样5次,即设置监测周期为200ms,以一台HP服务器为实验监测对象,在服务器上部署了Refresh回调对象,Refresh回调对象是以ICE[5]对象的形式实现的。就常识来说,监测周期越短必然一致性越高,实测值和真实值越吻合。经试验结果显示,采样周期越短,资源消耗监测值和实际负载消耗的一致性程度越高,这与常识一致;在1.8秒之后,采样值和实际负载的一致性呈震荡波形,说明在采样周期大于1.8秒时,其一致性变差,对监测结果的准确性影响明显;在[0,1]秒内采样值和实际负载的一致性迅速增加,在[1,1.8]内,一致性增加趋于平缓,因此通过一致性来综合考虑监测周期的取值,监测周期的合理区间应该为(0,1.8]秒,1秒应该是较好的选择。

4.结语

文章提出了资源消耗监测模型,对云计算资源消耗监测系统的应用技术进行了分析,并确定了云计算资源消耗监测系统的监测周期,为实现后续的资源调度提供了技术和数据的理论基础。今后的工作是根据资源消耗监测平台上获取的数据,从如何实现云计算资源合理调度、节能调度以及计算资源利润最大化等方面进行进一步的研究。

参考文献

[1] 田文洪,赵勇.数据中心资源优化调度理论与实践[M].北京:电子工业出版社.2014.

[2] 姚瑶.基于时间序列的电信信息预测监控系统的开发[D] .东南大学:硕士学位论文,2008:4-9.

[3] BREETT M.Java与XML[M].孙兆林 译.北京:中国电力出版社,2011:12-19.