首页 > 文章中心 > 数据中心存储方案

数据中心存储方案

数据中心存储方案

数据中心存储方案范文第1篇

华为“数据按需服务”可以进一步解读为,应客户所需,提供一种存储能力。它不是特指某一类产品,而是要为用户提供一种支持其业务云化的弹性伸缩、智能管控、灵活开放的存储环境。华为存储即服务解决方案的推出将这一设想变成了现实。

“如果你鬯,就送他去纽约,因为那里是天堂;如果你恨他,就送他去纽约,因为那里是地狱。”这是曾经风靡中国的电视剧《北京人在纽约》片头出现的一句话。如今,用这种爱恨交加的复杂心情来形容企业对数据存储的感情似乎也很贴切,或者更直白地说:“爱数据,恨存储!”

为什么会有这种两极分化的感觉?企业信息化最终获得的实实在在的成果就是数据。数据是企业重要的资产,是带来商业价值的源泉。所以,企业有充分的理由爱数据。数据量的爆炸式增长,以及应用越来越复杂,使得数据的载体――存储设备的操作和管理越来越复杂,容易产生数据孤岛,使采购和管理成本日益走高,同时也影响了业务部署的速度。所以,企业也有很多理由“恨”存储。

爱也好,恨也罢,存储这道门槛是所有企业必须跨越的。尤其是在今天,随着云时代的到来,云计算、大数据、物联网和智能终端等技术蓬勃发展,如何以合理的成本实现高效的数据存储和管理,并且适应企业业务的云化发展,已经成为CIO面临的首要问题。

云上云下一致的服务体验

云计算时代,就是软件定义一切的时代,也是一切皆服务的时代。

现在,最流行的词汇就是“数字化转型”。从IT的角度说,数字化转型的核心就是利用IT实现业务的重构,其中业务云化是重中之重。

为了更好地支持云工作负载,就要采用标准化的x86硬件、分布式集群软件,实现横向扩展等。没错!不过,这些都是具体的工具和解决方案。在采用业务云化的产品和解决方案之前,还有更关键的一步,就是先要了解云的本质。

云计算,不再是购买软硬件、一次性支付采购成本,而是交付一种开箱即用的服务,用户可按需使用,并按实际使用量付费。这对用户来说真的是一种由内而外、从下至上的颠覆,从产品的架构设计到使用,从产品的管理维护到资金的使用皆是如此。

作为IT基础架构的重要组成部分之一,存储自然也不例外。在云时代,存储就是一种数据服务。

德国当地时间3月20日,华为在德国举行的一年一度的CeBIT(汉诺威消费电子、信息及通信博览会) 2017上,正式了存储即服务(Storage as a Service,STaaS)解决方案,在业界率先打造无缝跨云的体验,旨在为企业用户提供云上云下体验一致的存储资源服务,以及智能的数据和运维管理,从而帮助企业数据中心向云平滑演进。

其实,在3月10日举行的华为中国生态伙伴大会2017上,华为存储产品线总裁孟广斌在题为“数据按需服务,让云转型更敏捷”的主题演讲中已经提前曝光了华为存储即服务解决方案的一些细节。

如何才能真正做到存储即服务呢?孟广斌谈到了两个关键点:存储资源池虚拟化和资源调度自动化。通常,在存储架构的最底层是各类存储硬件,包括传统的磁盘阵列、混合型阵列、全闪存阵列,还有软件定义存储,以及第三方的存储设备等。正是这种异构的存储环境有时会让用户感到手足无措,也是导致数据孤岛的“元凶”。现在,又加上私有云、公有云等新的资源池,问题就更棘手了。

华为存储即服务解决方案厉害的一手在于,无论什么样的存储设备、介质,都可以被虚拟化成一个统一的资源池,闪存存储与传统存储、高中低端存储互相备份和容灾,数据可以在本地存储与云之间按需流动,通常只有20%~30%的存储利有率,可以提升至70%左右。

华为存储即服务解决方案基于业务咨询和最佳实践,将应用按工作负载分类,给出合理的SLA等级建议,使业务应用与存储之间能够基于SLA进行最佳匹配,避免过度购买,可以节省20%的整体拥有成本。

在这个统一的存储资源池之上,企业可以更好地实现智能的数据管理和服务,具体表现在:将数据资源按照性能、可靠性、数据保护等特性进行智能分类,自动配置给应用程序,简化了传统存储解决方案手动设置的复杂度和操作步骤,在此基础上,实现智能的故障分析、分钟级故障定位和修复,效率提升50%;基于趋势的预测,可实现智能的资源回收,提供数据流动决策建议,并自动执行,进一步简化运维管理。由于具有自助式服务发放功能,新业务上线的时间缩短至分钟级。

在上述这些基础的存储工作做好后,向云进行平滑演进也就水到渠成了。华为存储即服务解决方案具有广泛的生态兼容性,支持多厂商、多类型的存储管理,并提供开放接口,与各种云平台(VMware、Odin、BMC等)集成。华为还倡导创建了OpenSDS联盟,目前Dell EMC、富士通、日立、西部数据、英特尔等厂商已经加入。

孟广斌打比方说,华为存储即服务解决方案就是一个智能的存储“超级大管家”,重点解决了存储云化整合、智能数据管理和服务,以及向云平滑演进等关键问题。

华为STaaS八面玲珑

当前,许多企业都面临“双模IT”的挑战,即一方面要支持传统IT应用,另一方面还要支持云原生应用。华为存储即服务解决方案可谓八面玲珑。

在传统数据中心里,用户可以使用华为的存储即服务解决方案实现存储设备的集中管理,基于统一视图进行运维监控,基于服务目录实现存储资源的自动分配和数据保护,从而提升运维的效率,减少存储管理的人力投入。

而在云数据中心里,华为的存储即服务解决方案更是如鱼得水,可以作为云平台的专业存储管理和服务组件,基于开放的RESTful接口,被业界主流的云平台快速集成,为用户提供块、文件、对象等各类存储服务,以及快照、复制、迁移等数据服务,让用户享受“开箱即用”的便捷。

孟广斌表示,华为看到存储未来的发展趋势有三个核心点:存储服务化、介质闪存化,以及软件定义存储。这些都是业务云化的有力支撑。

通常来说,面向未来的云化业务,客户有三种云存储方案可以选择。第一类,独立的分布式云存储,包括分布式块、分布式文件、分布式对象存储,不过这类存储也有走向多协议融合的趋势。第二类,提供端到端堆栈的私有云。第三类,公有云存储服务。

华为认为,公有云与私有云在未来的很长一段时间内会并存。客户可以灵活地选择华为成熟的私有云存储,以及公有云存储服务,并可形成混合云方案,实现统一管理和灵活迁移。

数据按需服务迈出一大步

在2016年的华为全联接大会上,华为提出了“数据按需服务(Data on Demand)”的理念。这一理念不是以技术为导向,而是以应用为导向。现在,云计算的一种新趋势就是不以资源为中心,而是以应用中心,以让客户轻松地驾驭和使用云为出发点。

数据中心存储方案范文第2篇

建设基于健康档案的区域卫生信息平台是未来医疗改革的重点

区域卫生信息平台作为国家基本公共卫生服务体系建设的重要组成部分,《中共中央 国务院关于深化医药卫生体制改革的意见》明确指出,建设基于健康档案的区域卫生信息平台是近期医疗改革的重点工作。区域卫生信息平台建设的核心是居民健康档案,健康档案是伴随居民一生的健康状况及疾病诊疗的完整信息记录,包括健康防护、疾病诊治、保健促进等一系列规范、科学的记录。该信息以计算机可处理的形式存在,必须能够安全地存储和传输,各级授权用户可随时访问。

区域卫生信息平台,是连接区域内的医疗卫生机构基本业务信息系统的数据交换和共享平台,是不同系统间进行信息整合的基础和载体。平台以数据为核心,数据模型、数据存储模式和数据管理是平台架构的核心基础。其中,数据存储模式是数据安全采集和数据安全访问的前提,并且,数据存储模式决定了平台的服务响应能力。数据存储模式是信息平台架构设计的一项重要内容,平台的设计者需要从数据传输、数据存储、数据安全、服务响应等方面综合考虑。方案的选择不仅仅要考量功能性,还需要从经济性、可管理性诸多方面做出选择。

闵行区区域卫生信息平台数据存储模式设计概要

上海作为中国金融、经济、市场、技术中心和国际化开放程度最高的城市,居民健康监测、疾病控制的重要性不言而喻。上海市闵行区卫生局作为最早的医疗卫生信息平台建设者之一,在平台设计、建设和运维管理等诸多方面,开创了一系列探索性经验。闵行区区域卫生信息平台建设项目是集医疗服务、医疗保障、医疗协作、妇幼保健、慢性病管理、疾病预防、绩效考核、业务监督、卫生管理等多种功能为一体的高效、快速、通畅的卫生服务体系,开创了终身式健康服务新模式和现代化医疗卫生管理模式。该平台在设计方面,除了对数据模型和数据管理、使用规范等进行了明确定义,并对数据存储模式和应用类型制定了技术规范,根据闵行区区域卫生信息平台设计纲要,信核数据联合创业软件提出了从数据存储到应用建设的一体化解决方案,并最终被用户采纳,平台建设完成后,已进入稳定运行阶段。

闵行区区域卫生信息平台存储建设方案

该信息平台涉及居民健康所有相关业务,并集成了政府职能管理相关功能,因此,信息种类繁多、数据量大,针对不同的信息必须采用不同的数据存储模式。方案设计中,充分考虑了数据的共享特性、安全特性及平台的互联互通和扩展能力,对于不同的信息采用了不同的数据存储模式。如:对于居民的基本信息及公共卫生信息采用集中存储方式,以提高数据安全性;对于医疗影像信息、诊疗信息等采用分布式存储方式,需要时通过接口调用;对于检验信息等采用混合存储方式。无论数据以何种存储方式存在,必须能够灵活调用。因此,数据存储平台的灵活性、开放性、可管理性至关重要,并且对于大量集中存储的数据和容灾保障显得非常重要。

以信核数据OSNSolution SANServer产品为核心的安全、高可用容灾存储系统是闵行区区域卫生信息平台的坚实数据存储平台。该平台不仅集成了不同的数据存储模式,而且集成了不同的存储设备,通过信核数据“存储虚拟化”技术,将现有存储、新购存储及未来增加存储进行统一管理、规划,为信息平台建设一个高度整合、灵活扩展的存储基础架构,“存储虚拟化”技术的灵活性还在于满足了平台系统中不同连接协议的需求;通过信核数据“动态池”技术,为多业务系统、多存储模式分配无需预估、动态增长的数据存储资源;通过信核数据“透明池”技术,直接接管现有系统中的存储设备,不改变已有数据的存储格式,实时将原有系统融入新建平台;通过信核数据“存储高可用”技术,两台存储服务器无主从关系,数据的写入顺序由应用服务器决定,数据的写入由工作状态的应用服务器写入到与其连接的一台存储服务器,再由这台存储服务器写入另一台存储服务器实现数据的同步写入,为应用系统提供数据可用性保障,实现中心机房核心业务系统的连续运行保障,确保集中存储的核心数据安全、可靠;信核数据存储系统建设方案与多应用系统平滑连接,存储系统IO读写效率完全满足应用响应指标。信核数据“存储虚拟化”技术与微软Windows 2008 Hype-V虚拟化技术珠联璧合,为多业务系统建立了高可用、高效率的虚拟应用环境,充分保障平台医疗服务的连续性、可迁移性。

区域卫生信息平台建设经验

建立共享的卫生信息平台,使得医疗工作者能够在任何地方、任何时间获得患者的诊疗信息,为患者提供及时、高效的医疗服务,避免因重复检查导致延长患者等待时间,使得病患得到及时的治疗。医疗工作者可以共享医疗资源,提供更高效的医疗服务,并且也有利于公共卫生工作者获得及时的疾病报告、尽快制定应急措施,有效控制一些群体性疾病的传播。使得居民能够全面掌握自己的健康资料,有利于自身疾病防控,增加居民对医疗服务的选择权,实现跨医院、跨地域的疾病诊治,减少看病开支。

数据中心存储方案范文第3篇

EMC Isilon:横向扩展 性能突出

大数据存储不是一类单独的产品,它有很多实现方式。EMC Isilon存储事业部总经理杨兰江概括说,大数据存储应该具有以下一些特性:海量数据存储能力,可轻松管理PB级乃至数十PB的存储容量;具有全局命名空间,所有应用可以看到统一的文件系统视图;支持标准接口,应用无需修改可直接运行,并提供API接口进行面向对象的管理;读写性能优异,聚合带宽高达数GB乃至数十GB;易于管理维护,无需中断业务即可轻松实现动态扩展;基于开放架构,可以运行于任何开放架构的硬件之上;具有多级数据冗余,支持硬件与软件冗余保护,数据具有高可靠性;采用多级存储备份,可灵活支持SSD、SAS、SATA和磁带库的统一管理。

通过与中国用户的接触,杨兰江认为,当前中国用户最迫切需要了解的是大数据存储有哪些分类,而在大数据应用方面面临的最大障碍就是如何在众多平台中找到适合自己的解决方案。

EMC针对不同的应用需求可以提供不同的解决方案:对于能源、媒体、生命科学、医疗影像、GIS、视频监控、HPC应用、某些归档应用等,EMC会首推以Isilon存储为核心的大数据存储解决方案;对于虚拟化以及具有很多小文件的应用,EMC将首推以VNX、XtremIO为核心的大数据存储解决方案;对于大数据分析一类的应用需求,EMC会综合考虑客户的具体需求,推荐Pivotal、Isilon等一体化的解决方案。在此,具体介绍一下EMC用于大数据的横向扩展NAS解决方案——EMC Isilon,其设计目标是简化对大数据存储基础架构的管理,为大数据提供灵活的可扩展平台,进一步提高大数据存储的效率,降低成本。

EMC Isilon存储解决方案主要包括三部分:EMC Isilon平台节点和加速器,可从单个文件系统进行大数据存储,从而服务于 I/O 密集型应用程序、存储和近线归档;EMC Isilon基础架构软件是一个强大的工具,可帮助用户在大数据环境中保护数据、控制成本并优化存储资源和系统性能;EMC Isilon OneFS操作系统可在集群中跨节点智能地整合文件系统、卷管理器和数据保护功能。

杨兰江表示,企业用户选择EMC Isilon的理由可以归纳为以下几点。第一,简化管理,增强易用性。与传统NAS相比,无论未来存储容量、性能增加到何种程度,EMC Isilon的安装、管理和扩展都会保持其简单性。第二,强大的可扩展性。EMC Isilon可以满足非结构化数据的存储和分析需求,单个文件系统和卷中每个集群的容量为18TB~15PB。第三,更高的处理效率,更低的成本。EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化资源,提供自动存储分层,保证存储的高性能、经济性。第四,灵活的互操作性。EMC Isilon支持众多行业标准,简化工作流。它还提供了API可以向客户和ISV提供OneFS控制接口,提供Isilon集群的自动化、协调和资源调配能力。

EMC Isilon大数据存储解决方案已经在医疗、制造、高校和科研机构中有了许多成功应用。

方案点评

EMC Isilon是一个强大但简单的横向扩展NAS方案,适用于希望投资数据管理而不是单纯存储的企业。当初,EMC将收购来的分布式数据仓库软件厂商Greenplum的软件与Isilon存储组合成了EMC最早的大数据解决方案。用户既可以分开选择Greenplum软件或Isilon存储,也可以选择由Greenplum软件和Isilon存储组成的一体机解决方案。现在,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作伙伴,Greenplum与Isilon存储的组合方案并不会因此受到影响。

HDS UCP:统一平台 应用优化

HDS中国区解决方案与专业服务事业部总监陈戈认为,大数据存储应该是一个解决方案:“大数据解决方案是由基础架构的各部件组成的,包含数据存储、计算和分析,而存储是此架构中的一部分。”

大数据的存储类型与传统的存储类型有一定区别:在大数据存储中,更多的应用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,由于每个应用不同,其读写的比例也是随机的;大数据存储需要具有横向的可扩展性,并可支持多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。

谈到中国用户在大数据存储应用中最迫切的需求是什么,陈戈认为,中国用户最迫切的需求是如何逐步实现大数据应用,即用户从现有的模式如何过渡到大数据,如何更好地利用大数据进行经营分析。

大数据的经典定义可以归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种类型的数据是一次性全部载入到大数据中,还是通过现有的平台进行数据初选,再导入到大数据平台中,是两种不同的实现途径。“先通过现有平台进行数据初选,再导入到大数据平台,这种方式更适合于客户逐渐实现大数据,可以缩短用户实现大数据应用的时间。”陈戈表示,“大数据主要是非结构化数据。用户可以使用基于对象数据存储的HCP,利用其独特的元数据采集和智能工具,对非结构化文件数据进行管理,实现智能的自动化,这有助于对数据进行深度分析,帮助客户从单一系统中存储、共享、同步、保护、保存、分析和检索文件数据,减少垃圾数据,进而为大数据分析建立一个良好的基础。”

谈到用户在大数据应用中遇到的主要障碍,陈戈表示,一方面,应用软件本身的智能程度是否能满足行业应用需求,应用软件是否已经成型,大数据人才是否具备等,是让大数据应用落地的关键;另一方面,如何抽取数据,放在大数据平台中进行相应的计算是另一个关键问题。

HDS可为所有数据提供单一、可扩展的虚拟化集成平台。HDS推出了“三步”云战略,从基础架构、内容和信息三个层面帮助客户解决目前所遇到的问题。具体来看,通过“基础架构云”,HDS可以帮助客户进行虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以按需提供内容,更可以不受应用限制地进行数据搜索和集成;在第三层的“信息云”中,针对所有数据类型,HDS在其存储平台中融入了分析功能,使客户可以从数据信息中获取洞察力。

HDS提供的UCP for SAP HANA集成了基于大量数据集的创新和内存分析技术,并提供实时的洞察力,从而使当前的信息驱动型企业可以加快其商业决策的速度。陈戈介绍说,UCP for SAP HANA解决方案结合了HDS刀片服务器技术、企业级存储系统和业内领先的网络组件,在这样一个集成的、高性能的硬件平台上可以快速交付SAP下一代内存计算技术。全球已有超过200家客户在使用HDS和SAP的大数据解决方案。

方案点评

其实,HDS的“三步”云战略也可以看成是其大数据战略。HDS借助以UCP为核心的大数据平台,可以帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决方案。HDS的“信息云”直接与大数据相关。UCP是一个集成了计算、存储与网络的一体化平台,它既可以提供像一体机一样的整合性、简单性,又可以提供灵活的选择,连接第三方的设备组件。HDS还通过与包括SAP在内的众多大数据分析类的合作伙伴合作,针对行业定制优质的大数据解决方案。

HP StoreAll :快速部署 极速搜索

中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决方案,应该能够对大数据的Volume、Velocity、Variety和Value四个方面提供全面的支持。

第一,大数据存储要支持海量级的数据存储,比如具有PB级的存储能力。第二,大数据存储要支持更高的存储速度,支持10Gb甚至更高的网络连接。第三,大数据存储要支持数据的多样性,如图片、文本、视频、音频等。第四,大数据最重要的是价值的体现,而为了实现这一点,存储本身应该具备快速、智能的数据检索能力。“在存储的最底层提供最直接、快捷的数据检索。这一过程简单说就是,将上层的数据挖掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据进行极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”

另外,模糊查询能力也是大数据存储不可缺少的功能。智能的模糊查询将为大数据平台提供更加便捷的存储服务能力,使得存储更像一台智能的高速计算设备。

目前,很多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身应该提供的其他额外属性。中国用户在实施大数据的过程中经常遇到的障碍有以下两方面:第一,无法将存储与大数据平台进行对接;第二,无法充分利用大数据存储的价值,也很难将其运用到实际的业务中。张楠表示,究其原因,主要在于有些大数据存储产品没有开放的接口协议,或没有针对用户的大数据场景进行特别优化,也没有用户容易接受的易用的管理方式等。

惠普在大数据方面可以提供软硬结合的解决方案。惠普在收购Autonomy公司之后,将其软件与惠普的硬件平台进行了整合, 形成了一套完整的大数据解决方案。张楠介绍说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除了可以实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特殊文件进行快速定位。同时,结合HP Autonomy软件的特性,惠普还引入了模糊查询、智能语义库等概念,可以帮助企业用户通过存储底层为上层业务带来所需的大数据业务价值。

如今,闪存不仅在大数据领域,而且在Tier 1存储市场同样占据着十分重要的地位。对于大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的响应时间等。针对那些I/O压力十分明确的大数据平台, SSD可以发挥其效果, 提升存储的整体性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的响应要求远远没有对带宽的需求大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较困难的。从目前情况看,引入闪存的大数据解决方案还不是很普遍。

方案点评

惠普在大数据方面收购了两个软件公司Vertica与Autonomy,然后将它们的软件与原有的硬件平台进行整合,针对结构化和非结构化的数据都可以提供针对性的解决方案。惠普在将大数据软件与存储硬件结合上也进行了尝试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具有以下特点:横向扩展,最大可以扩展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,实现实时大数据的价值;内置对OpenStack的支持,可快速部署;支持文件和对象类型的数据存储。

NetApp:统一架构 无限扩展

如今,企业若想获得成功,就必须想方设法应对具有前所未有的复杂性、高性能的海量数据,并尽可能地管理这些数据,从中发掘更大的商业价值。

对于国内用户来说,无论企业的规模和数据量大小如何,运用大数据的关键在于,企业是否把大数据作为一个真正的工具,去体现企业的差异化,从而提升竞争力。随着越来越智慧的企业信息化的发展,IT不再是束缚企业发展的瓶颈,而是真正地融入了企业自身的业务中。越来越多的公司将大数据成功地运用于企业的商业模式。例如,在欧美,很多企业已经着手将大量资源投放在大数据领域。反观国内,在金融领域,有为数不少的企业通过大数据的分析工具来分析金融的走势,实现风险管理,进行信用卡的追踪等。此外,像零售、制造、电信等行业也已在尝试利用大数据分析工具为企业营销和决策提供支撑。

无论企业现在是否正在使用大数据工具,企业都应全面地考虑自身未来发展的需求,选择一个厂家的平台与之共同发展,这可以有效避免因数据和应用迁移带来的麻烦。

在大数据方面,NetApp能够帮助企业实现数据管理,应对业务挑战的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不够的,需要彻底转变数据和业务之间的联系模式。NetApp可以帮助企业用户持续管理数据,迅速把握意料之外的新商机,永久保存所有数据,并在灵活、开放的存储平台之上打造属于企业自己的大数据解决方案。

NetApp提供了可高效处理、分析、管理和访问大规模数据的大数据解决方案。NetApp的解决方案组合可划分为分析、带宽和内容三个主要用例,这被称之为大数据的“ABC”基本要素。

具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决方案就是帮助用户深入了解和利用数字世界,将数据转化为高质量的信息,以及提供关于业务的更深入见解,从而帮助企业做出更好的决策。

带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决方案着重于为速度非常快的工作负载提供更高的性能。高带宽应用包括高性能计算(能以极快的速度执行复杂的分析)、用于监控和任务规划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。

内容(Content)是指无限的安全数据存储。此类解决方案着重于满足可扩展的安全数据存储需求。内容解决方案必须支持存储的无限扩展能力,以便企业可以根据需要存储任意多的数据,并能在需要时找到所需的数据。

NetApp致力于通过一系列解决方案来提供高性能的运算和大数据的应用。2013年11月,NetApp再次更新了E系列家族产品,推出E2700和E5500。该系列产品采用可轻松扩展的设计,适用于要求99.999%的可靠性且稳定、高性能的工作负载。

用户在采购大数据存储产品时,需要注意以下五个方面的问题:大数据存储必须具有向上扩展与向外扩展的能力;架构必须是针对工作负载进行优化的,具有实时处理能力;具有整合的数据保护功能;保证7×24小时运行不中断,可在线进行容量扩展,实施数据迁移等;可以实现服务的自动化。

方案点评

NetApp的技术优势集中体现在其统一存储平台上,从入门级产品到企业级产品,全部基于同一个体系架构和操作系统,不仅部署和使用方便,而且升级和扩展非常简单。当初,NetApp收购LSI Engenio,其中一个重要的原因就是为了大数据。2013年,NetApp不断更新E系列产品线,推出E2700和E5500等。E5500可以支持高IOPS混合工作负载和数据库、高性能文件系统和带宽密集型流等应用,可确保数据的高可用性、完整性和安全性。

曙光XData:高度集成 贴近行业

关于大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决方案角度,概括出大数据存储的主要特征。

首先,大数据存储必须支持全类型数据, 包括结构化、半结构化和非结构数据,实现统一数据支持。

其次,存储性能上,一方面,大数据存储要支持海量数据,并且要在保证数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获取能力。

最后,在系统达到一定规模之后,系统的易用性和可管理性也是不可或缺的。

从应用角度来说,目前中国用户在大数据存储应用中最迫切的需求,是如何真正实现用户数据的价值,如何驱动业务发展,实现决策和运营。“从系统构建层面说,要实现数据高性价比的存储和管理,同时满足数据服务的相关需求。”惠润海表示。

针对用户对大数据存储的需求, 曙光推出了像大数据一体机这样的全类型数据分析型产品,同时还基于该产品构建了基于行业的解决方案,以帮助用户实现大数据落地。

“除此之外, 我们还提供了大数据统一数据中心解决方案, 涵盖了像主攻事物处理的DS900、DS800,以及针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据运营管理平台。”惠润海介绍说,“曙光的优势不仅在于可以提供全面的产品支撑,更重要的是能够提供数据生命周期过程服务支持。目前,我们提供的免费维保期限为5年。”

曙光开发了针对不同行业和应用场景的大数据存储解决方案。以金融行业为例,目前国内四大行的应用系统每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海认为,只有通过商业智能和高级分析应用解决方案才能将数据的价值最大程度地发挥出来。

针对金融行业用户的需求,曙光开发的XData大数据解决方案利用优化的大数据处理技术,对文件管理、历史数据查询和数据分析类应用等进行深入研究,为数据爆炸式增长带来的海量数据存储及分析应用提供高可靠的解决方案。

曙光金融行业XData大数据解决方案采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理事实标准Hadoop,并充分考虑了多方面的数据收集,加入ETL工具和连接驱动器,提供了类SQL的接口,还和现有金融业务系统进行对接。

针对金融行业历史数据,XData大数据解决方案在方案设计上主要考虑了数据的安全性、历史数据高效导入、快速访问与分析报表。曙光金融行业大数据解决方案立足于基础平台建设,同时切实贴合金融行业用户需求,提供了优质的软硬一体化解决方案,为用户一揽子解决了部署、业务移植开发等技术难题,帮助用户跨过应用门槛。

数据中心存储方案范文第4篇

(四川文理学院计算机学院,四川达州635000)

摘要:针对大数据下档案存储的现状,通过分析存储档案文档存在重复的原因,提出一种MongoDB存储档案文档的方法,利用MongoDB的GridFs统一处理不同类型和大小的文件,定义3个集合分别存储上传者记录、文件信息记录和分块文件内容,提出存储中通过文件MD5校验码值是否相同来进行去重研究,并实现去重的程序代码,有一定的实际意义。采用的分布式存储数据库增强了档案文档存储系统的可扩展性。实验表明,该方法能有效地去除重复的档案文档,提高查询效率。

关键词 :MongoDB;MD5;大数据;档案文档去重;GridFs

中图分类号:TN911?34;TP311 文献标识码:A 文章编号:1004?373X(2015)16?0051?05

收稿日期:2015?03?20

基金项目:国家档案局项目:基于大数据的档案数据去重模型与方法研究(2014?X?65);四川省教育厅一般项目:大数据环境下NoSQL数据库应用研究(14ZB0313)

0 引言

随着信息技术的飞跃发展,各国各地都在大力发展电子政务建设。在此环境下档案局的档案文档也跨入了信息化存储的行列。但档案局的档案类型种类较多,除了纯文本的之外,还有图片、声音、视频、PDF等各种类型的文档,这些文档都是非结构化的数据,在传统的信息系统中,存放这些数据是比较困难的。因此在大数据环境下,设计信息化档案存储系统会首选非结构化的数据库,即NoSQL 数据库。利用NoSQL 家族中的Mon?goDB数据库作为存放档案文档的非结构化数据是较为理想的。MongoDB对存放大量的非结构化数据有很大的优势,但因MongoDB本身就是非结构化的,故在存放信息时会产生重复的数据。有人提出了像在关系数据库中一样建立关键索引来解决重复数据的问题,但在以文档方式存储的数据而言,当数据很大时,这种方式将会有弊端。本文研究的是在存储档案文档之前就重复的数据进行去重处理,然后再存入MongoDB数据库中,这样在数据库中存放的将是非重复的数据。

1 传统的档案存储分析

在原有的存储档案文档信息系统中,主要是把文档以文件的形式存放在文件系统中,然后用原数据信息建立一个档案文件和数据库的链接,并把该链接的路径存储在关系数据库中,如表1和表2所示。

通过表1和表2的分析可知,表2中filePathId与表1中的filePathId 中的字段关联,这样在访问表1 中的某个文件时,只需要访问表2中与filePathId字段关联的记录的fileRealPath的值即可访问该文件。对于以文件系统方式存放的档案文件会产生大量的重复文件。即使在存储的时候能简单的通过人工的方式来检查是否有重复的文件存放,但也不能大面积的检查是否有重复的文件,在这种方式下,存储空间很快会被耗尽,要靠不断的增加存储设备来解决大量档案数据存放的问题,而且不利于管理,数据极其不安全,扩展性较差。人们对此已有逐步的认识,也进行了相应的研究。本文的重点是利用MongoDB 数据库来存储这些非结构化的数据,并且在存放之前就完成对重复档案文档的去重操作。

2 基于MongoDB 的文档存储模型

2.1 MongoDB的存储机制

MongoDB是NoSql家族中的一员,具有模式自由等特性。它与关系数据库一样具有3个层次:分别是数据库层、集合层、文档对象层。分别对应关系数据库中的数据库、表和记录。在MongoDB中文档类似于JSON的键/值对,集合则是一组文档的集合,它们是无模式限制的。MongoDB数据库非常适合实时数据的插入、查询、更新、删除及数据备份等操作。尤其适合充当由几十台或者几百台服务器组成的集群数据库。现在大多数的地理规划等领域都在利用MongoDB数据库进行数据存储。MongoDB数据库不仅支持分布式系统,它本身还支持分片存储数据(Mongod)、客户端请求(Clients)、集群配置(Config Server)和路由协议(Mongos)[1]。它采用的是内存映射的方式作为存储引擎,能有效地提高输入/输出的效率[2]。

2.2 MongoDB数据库中重复数据来源

目前的档案管理系统还处于信息孤岛的层面,各个省市的数据结构不同,存放的方式也不同,惟一能统一的是从市级单位及其下级单位,如区、县、乡、镇单位。利用档案管理系统上传档案文件进行存储的也是这些相关单位。如果同一份档案文档被市级单位分发到其他单位,其他单位会把它作为重要档案文档给上传到档案管理系统中存储起来,这样就会产生多个重复的档案文档。而有部门在不知道的情况下,同一个人上传了几份相同的档案文档;或者利用shp文件批量上传档案文档时遇到其他异常情况,没有一次性的上传完,下次再上传的时候,又是从头开始上传,导致以前的档案文档被重复存储;或者在批量上传的shp文档本身被人为的不小心做成了含有重复的档案文档记录,这样导入shp文件时也会产生重复记录。通过对以上情况的分析可知,档案文档存储时在MongoDB 数据库中产生重复数据的来源主要有以下几点:同一个档案文档被不同的单位、部门重复上传;同一个人对同一个档案文档上传多次;批量档案文档准备过程中人为的产生了重复文档;批量上传时,中断上传,下次再上传时将产生重复文档。

2.3 档案存储模型的建立

档案存储时采用分布式的方式进行上传存储的,各个市、区、县、乡、镇的不同部门可能在不同的时间和地点对档案文档进行上传操作。数据库采用MongoDB数据库,其分布式存储结构如图1所示。

从图1可以看出,各市、县、乡、镇的用户可以随时在不同地点上传档案文档到不同的MongoDB 服务器中,操作方便。档案文档不同于一般的文档,将遵循“谁操作谁负责”的原则。故将设置上传者的权限,且将记录上传者的详细信息:如上传时间、地点等的一些信息。而对于档案文档本身而言其文件大小不能统一标准化,且档案文档的格式有差异,考虑到要处理数据大小和类型都可能不同的档案文档,本文将借助于Mon?goDB 的GridFs 来处理,GridFs 是一种处理大文件的规范,可以存储上百万的文件而不用担心其扩容性[3]。在MongoDB中存放数据时将涉及到3个集合:userInfo.users,fileInfo.files,fileContent.chunks。

userInfo.users 集合用来存放上传档案文档的上传者信息,其结构如下:

集合fileInfo.files中的fileID与集合userInfo.users集合中的upLaodfileID 相同,用来关联上传的文件信息。集合fileContent.chucks中的fileID 与集合fileInfo.files中的fileID相同,用来关联文件存放的具体内容,根据上面3个集合中结构的设计,当一个具有操作权限的用户在某一地点上传了某个档案文件后,将记录该用户上传的详细信息:如操作者,上传的具体区、县、乡的详细地址,上传的日期、文件名、文件的大小、长度、类型等。当该用户再次上传相同的档案文档时,根据表的关联查找,将会做出已在同一地点或不同地点已经上传了相同的档案文件的提示信息。

3 MongoDB 中的去重算法

本算法的设计思想是,根据上传的档案文档判断,无论是否已经被上传过,都会存储上传档案文档操作者的相关信息,即生成一个userInfo.users集合中的一条记录。上传档案文件时为了节省服务器的开销和资源,所上传文档的MD5 校验码值的计算都会在客户端进行。在客户端计算并上传档案文档的MD5校验码值后再在分布式存储数据库中查找遍历fileInfo.files中的每一条记录,查看每条记录中存储的档案文档的MD5 码值是否与将要上传的档案文档的MD5码值相同,如果不同,则将在userInfo.user 集合中存储一条上传者信息的记录,并且把该记录中的“UploadCount”值设置为1。同时生成集合fileInfo.files 中的一条记录,在该记录中通过“fileMD5”存储档案文档的MD5码值。获得要上传的档案文档的大小fileSize,确定档案分块存储的总块数file?ChuckSize。在算法中为了规范,不管文件的大小和类型,均采用统一大小(fixedSize)的分块对档案文档进行存放,即总分块数如下所示:

fileChuckSize=(fileSize%fixedSize)?(fileSize/fixedSize):(fileSize/fixedSize+1)

并把该值记录到fileInfo.files 集合中对应记录中。然后对档案文档进行上传并对文档内容按固定的分块大小存放到fileContent.chucks集合中,在该集合里会存储fileChuckSize 条记录。如果要上传的档案文档的MD5码值和分布式数据库中存储的fileInfo.files集合中存储的某个记录的fileMD5值相同,则取出该条记录对应的fileID 值并把该值存放到一个临时存储字段temp?FileID 中,已备后期使用。然后提取上传者的信息和tempFileID 的值组合成userInfo.users 集合中的一条记录,并与集合中的其他记录进行比较,如果有相同的记录,则在该条记录的UploadCount值加1。而组合的这条记录将不再存储在userInfo.users集合中。其中Upload?Count值加1是判断该用户是否经常在同一个地点上传相同的档案文档。

如果在该集合中没有相同的记录,则存储该组合好的记录。下次在访问这个档案文档时,通过userInfo.us?ers集合中的upLoadfileID关联到fileInfo.files集合,再通过fileInfo.files 集合中的fileID 关联到fileContent.chucks集合,则顺利访问到需要的档案文档,其过程流程图如图2所示。

根据算法流程图,定义几个类UserInfo,FileInfo,FileContent 分别对应3 个集合,定义操作数据库的类DBObj,定义去重的类RemoveRepeat。

去重的关键代码实现如下:

在代码中定义了findByFileMD5()方法判断在已经存储的fileInfo.files集合的记录中有没有与将要上传的档案文档的MD5 校验码相同的记录存在。定义方法findRepeatData()用来检查有无重复上传档案文档上传者信息,即判断在usersInfo.user中有没有重复的数据记录,这些方法在批量导入数据记录时也会调用逐一判断。

4 实验结果与分析

本实验使用Hadoop作为分布式文件系统运行在不同地理位置的10 台主机组成的集群上,在Window7 系统中,采用MyEclipse8.5 做Java 代码开发,分布式数据库MongoDB 作数据存储,采用的是8 核CPU,8 GB 内存,320 GB 硬盘。批量导入使用的是shp文件。shp文件的格式定义同集合文件的格式。对单个的文档上传进行验证无误外,为了对更多的数据进行验证,在shp文件中模拟产生10万,20万,30万数据。结果如图3所示。

该方法在数据去重中达到90%以上,去重效果还比较理想。算法采用的是分布式文件系统,对文件去重效率较高,且系统具有相应的扩展性。

5 结语

本算法中采用分布式文件系统和分布式数据库MongoDB 对档案文档进行存储和去重,利用MongoDB数据库的GridFs来处理不同类型和大小的档案文档,统一对档案文档进行处理。提出利用了去重的算法思想,并通过实验模拟测试去重效果较为理性。该方法具有一定的可行性。为以后大数据的存储的去重有一定的借鉴性。

参考文献

[1] 雷德龙,郭殿升,陈崇成,等.基于MongoDB的矢量空间数据云存储与处理系统[J].地理信息科学,2014(7):508?514.

[2] 吴秀君.面向电子政务的MongoDB与MySQL混合存储策略[J].计算机与现代化,2014(8):62?65.

[3] CHODOROW Kristina.MongoDB 权威指南[M].北京:人民邮电出版社,2010.

[4] 郭武士.基于MongoDB GridFS的图片存储方案的实现[J].四川工程职业技术学院学报,2011(4):41?43.

[5] 卫启云,渠伟勇,黄鸿,等.城市地理编码的部门信息共享与应用实践[J].测绘通报,2014(10):101?104.

[6] 陈超,王亮,闫浩文,等.一种基于NoSQL 的地图瓦片数据存储技术[J].测绘科学,2013(1):142?143.

[7] MANBER U. Finding similar files in a large file system [C]//Proceedings of the Winter 1994 USENIX Technical Conference.San Fransisco,CA,USA:[s.n.],1994:1?10.

[8] BRODER A Z. On the resemblance and containment of docu?ments [C]// Proceedings of the International Conference on Com?pression and Complexity of Sequences. Salerno,Italy:[s.n.],1997:21?29.

[9] 孙有军,张大兴.海量图片文件存储去重技术研究[J].计算机应用与软件,2014(4):56?57.

[10] RIVEST R. The MD5 message ? digest algorithm [J]. RFC1321,Internet Engineering Task Force,1992,22(1) :15?26.

[11] 成功,李小正,赵全军.一种网络爬虫系统中URL去重方法的研究[J].中国新技术新产品,2014(12):23?24.

[12] 杨祥清.存储系统数据去重策略研究[J].信息通信,2014(8):132?133.

数据中心存储方案范文第5篇

法规遵从要求和新型的存储密集型应用(如电子邮件、多媒体、生命科学研究和生物统计学)正在合力将数据增长速度提高到前所未有的水平,并且已经使众多企业遭受数据增长失控的困扰。面对这种情况,大多数企业下意识的反应都是试图通过不断提供容量来满足数据增长的挑战,即一旦系统出现“磁盘空间已满”的标志,新的存储系统就会被立即连接到服务器上。但遗憾的是,在同一环境中的其他存储系统却闲置在一旁。这种系统饱和状态和闲置状态并存的分散式存储环境,从投资回报的角度看,无法对设备进行充分的利用,导致了存储设备的投资浪费; 从环保的角度看,为支持分散的存储系统所需的电力、冷却系统和地板空间等环境成本也必将水涨船高,导致了不必要的电力、散热、空间资源的浪费。

采用切实有效的虚拟化技术,数据中心的管理人员可以通过整合存储资源来积极面对失控的数据增长,在为企业存储环境重整秩序的同时节省数据中心的地板空间资源,并能降低数据中心对电力和散热的需求,从而显著减少与环境有关的成本。

日立数据系统(HDS)公司的智能虚拟存储控制器将磁盘介质与提供存储、数据及内容服务的智能控制器分离开来,日立能够为用户提供较强的灵活性,并在构建绿色数据中心方面具有得天独厚的竞争优势。

提高存储密度

存储基础架构对能源的消耗是和磁盘数直接挂钩的,而非存储的数据量,所以容量的密度越大就意味着能耗效率越高,因此利用虚拟化来部署分层存储和实施通用管理架构能够大大提高资源利用率。以HDS的USP为例,它不仅配有功能独特且强大的基于控制器的虚拟化引擎,还可以将控制器与存储介质相分离,允许企业将其DAS、NAS和SAN 都整合到一个存储平台中,使用户可以在短短几秒钟内将存储空间分配(或解除分配)给某个应用。

此外,USP还可以通过一个单一的控制器来管理整个数据中心高达32 PB的存储容量,大大提高了数据中心每平方米所能支持的TB数。在使用单个控制器的前提下,市场上部分同类产品仅能支持0.5 PB,其余产品也不过是1.2 PB。由于HDS的虚拟存储控制器能够通过单一的存储控制器管理庞大的存储量,因此虽然它拥有的处理器数量与市场上同类产品相同,但其单机所支持的存储容量却远远高于同类产品,从而能够带给企业显著的能源、散热及空间效益。据估算,HDS提供的虚拟化和逻辑分区功能能够将数据中心的能源及散热成本降低30%~50%。

减少热源

据Gartner统计,过去数据中心的散热所需电量只要60%,而今天这个数字已经攀升至100%――现在存储器每消耗1瓦电就需要额外1~1.5瓦的电力用于散热。降低数据中心散热需求的关键在于减少热源。存储和服务器机架应当配置成冷热交替排列,否则后排机架就会吸收临近的前排机架所排出的热量。在不采用虚拟化的情况下,管理人员就无法摆脱固定配置,而且还可能不得不加大散热能源的供应。通过利用虚拟化,管理人员就能够重新配置存储机架,不仅不会引起应用中断,还能充分利用更合理的散热配置。HDS提供的基于控制器的虚拟化能在任何环境下将控制器与存储介质相分离,而其他供应商仍局限于只对机柜中的存储器提供支持。HDS同时能够提供外部连接存储虚拟化,这表示企业可以在数据中心之外连接存储设备,从而减少数据中心的热源。

降低其他成本

HDS基于USP V平台率先在企业级虚拟层实现了Thin Provisioning(动态精细化预配置)功能:USP V和Hitachi Dynamic Provisioning (日立动态与配置)软件的结合使用户能够在一个整合的解决方案中同时获得外部存储虚拟化的益处以及由Thin Provisioning带来的电力和冷却成本方面的优势。由于传统的存储管理和主机卷管理都要求存储管理员预先为应用分配足够的存储空间,以便确保业务应用,因此管理员不得不通过过度地分配存储容量来避免因容量不足而导致应用崩溃的风险。但是这种固定的物理卷分配会造成存储容量的极大浪费,也会促使管理员为了克服时间与成本的限制而为现有的卷增加性能或容量,从而带来人为干预所导致的混乱。

USP V 打破了由于过度配置存储容量而造成的局限,它采用面向服务的方法为用户提供了一种新型的卷创建工具。Hitachi Dynamic Provisioning软件能够使用户根据自身所预期的未来需求合理分配虚拟磁盘存储,而无需预先分配专用的物理磁盘存储。如果未来应用需要更多的物理磁盘容量,用户可以在将来以更低的价格购买额外容量,并且透明地实施安装,不会造成其关键任务应用的中断。由于减少了对物理磁盘的需求,大大提高了容量利用率,因此也减少了对“占地面积”的需求,进而为用户大大降低了空间、电力和冷却方面的成本。

USP V还可以与日立 Tiered Storage Manager (分层存储管理软件)相结合,识别并应对不断变化的应用需求挑战,允许数据在存储层之间的频繁迁移以确保其一直处于最佳位置,从而使用户确保其数据始终处于最“环保”的位置。

另外,对于有大规模整合需求的企业用户以及生命科学、互联网服务及娱乐等数据密集型高性能计算领域的用户而言,高性能NAS系统有助于降低电力、散热和数据中心空间资源等成本。日立基于BlueArc技术的高性能NAS平台不仅能配置成集群,还具备先进的内置虚拟化系统,在很大程度上改变了用户的成本组成,能够在很大程度上节省用户的环境资源及成本。

专家点评