首页 > 文章中心 > 大数据量解决方案

大数据量解决方案

大数据量解决方案

大数据量解决方案范文第1篇

在通信展上,亨通推出一系列新品,其中有涉及信息通信安全的优网科技大数据、安全、通信软件解决方案和量子保密通信行业级解决方案,海洋业务板块的海底观测系统以及江河湖泊水质监测系统解决方案,以及轨道交通通信的高铁无线覆盖解决方案等。

亨通之所以能在本届展会上在多个领域推出一批新产品,是因为其多元化、全产业链的发展思路。

近年来,亨通立足光通信主业、突破产业关键核心技术,不断完善“光棒-光纤-光缆-光器件-光网络”的光纤通信全产业链。与此同时,亨通瞄准产业尖端前沿,不断延伸产业链,调整结构,转型升级,积极拓展互联网+发展新空间,布局量子通信产业,进入宽带接入网、智慧社区、通信工程的建设运营,并构建大数据应用及网络安全等业务体系,“形成‘产品+平台+服务’的综合服务模式。”亨通光电总经理尹纪成表示。

布局网络安全

网络安全是当下互联网领域最突出的问题,受到人们的广泛关注,也是本届通信展上一项重要的展示内容。而在这一背景下,亨通适时推出了优网科技大数据、安全、通信软件解决方案和量子保密通信行业级解决方案这两套保障网络信息安全的解决方案。

据了解,优网科技大数据、安全、通信软件解决方案包括用于通信网络维护的综合性能监控解决方案、重点场景保障解决方案、客服支撑解决方案,用于网络安全领域的信息安全态势感知解决方案、网络安全态势感知解决方案、大数据云防护解决方案、云安全防护解决方案及运营,用于大数据运营的大数据平台解决方案、互联网综合服务平台解决方案等一系列的维护、安全、大数据解决方案,为通信、互联网等数据运营提供全方位的支撑。

今年8月份,亨通光电与安徽问天量子科技股份有限公司共同投资设立江苏亨通问天量子信息研究院有限公司,双方强强联合、优势互补,积极布局量子通信产业,加快启动量子网络建设,并在本届展会上推出了政务网解决方案、电力调度保密通信解决方案、数据中心信息安全解决方案等一系列量子保密通信解决方案,为通信及互联网的信息安全保驾护航。

聚焦高铁通信

国内高铁建设正加快推进,乘客对于乘坐高铁时手机上网和通话的需求量逐渐增加,因此运营商在高铁沿线的基站建设方面将进一步加大投资力度。

据了解,高铁沿线无线信号覆盖主要依靠沿线的通信基站,为高铁列车提供无线信号。由于高铁列车的运行速度较快,导致基站的密集程度高,投资费用较高。同时,在大部分偏远地区,高铁沿线基站仅用于列车信号覆盖,功能单一,并且用户量少,运营商的投资收益率低,资金回收周期长。

针对现有情况,亨通推出高铁无线覆盖解决方案,为客户提供建设效率高、投资费用低、运维便捷的产品和方案。据介绍,该方案采用铜合金导体作为主要供电电缆,可选配1-144芯光纤,能够同时为高铁沿线基站提供电力和通信接入服务。铜合金导体相比传统铜芯电缆产品,产品施工难度低,相同重量长度更长,抗强风能力好,同时由于导体采用铜合金导体,无法回收利用,具有防盗效果。高铁无线覆盖解决方案采用100V-600V可变直流电远程集中供电,通过铁路信源站取电后,能够双向辐射,最远可满足8个基站的供电需求。因此减少了用户的取电费用和协调难度。在基站端仅需要配置对应的终端设备即可完成快速建站,节约用户建站时间,降低客户无形建设成本。

目前,亨通的高铁无线覆盖解决方案已经在兰新线铁路中大范围使用,为客户提供了更优质的产品和解决方案。

深耕海洋业务

海洋板块是亨通近两年颇为重视的业务板块,同时也是今年上半年营业收入增幅最大的业务之一。据亨通2016年上半年报告,亨通海洋电力通信产品营收2.43亿元,同比增长249.12%。

在本届通信展上,亨通重点推出了海底观测系统以及江河湖泊水质监测系统解决方案。

海底观测系统是主要基于海底光电缆构建的具备观测和数据采集、供能和数据传输、交互式程控制,数据管理和分析等功能的软硬件集成系统,实现对海底地壳深部、海底界面到海水水体及海面的大范围、全天候、综合性、长期、连续、实时的高分辨率和高精度的观测。而在系统中起到关键作用的就是构成整个系统核心的接驳盒以及SIIM基站等节点设备。

大数据量解决方案范文第2篇

满足用户的个性化需求

中桥咨询的一份大数据调查报告显示,大部分中国用户还处于“系统整合”阶段,需要对来自企业内外部的大量数据进行收集和整理。

“为什么现在用户对大数据解决方案求贤若渴?”高国辉自问自答,“因为传统的技术和解决方案已经无法解决用户当前遇到的诸多应用难题,比如实时交易数据的处理和分析等。金融行业提出‘小核心、大’,电信运营商积极构建双活的数据中心都是从各自的实际需求出发,以应对大数据带来的新挑战。美国的某电信运营商就采用戴尔的SharePlex技术构建了双活的数据中心。”

其实,无论企业的数据量有多大,数据是结构化还是非结构化,戴尔都可以提供具有针对性的解决方案。Spansion是一家知名的制造企业,它希望通过升级现有的数据库来更好地支持其关键统计流程,从而达到提升业绩的目标。为此,它采用了戴尔的SharePlex技术对原有的Oracle数据库进行升级,不仅安全地完成了数据库的迁移,而且节省了大量资金。

“诸如此类的例子还有许多。”高国辉介绍说,“不同的用户,在大数据方面的需求不同,而且对价格的敏感度不同,这就决定了用户在选择大数据解决方案时有其‘个性化’的需求。比如,许多互联网企业十分热衷采用基于Hadoop的解决方案,就是考虑到经济性的问题。戴尔的优势就在于,可以为不同的用户提供适合其需求的大数据解决方案。”

戴尔软件事业部已成为戴尔企业级端到端解决方案的核心组成部分。具体到软件解决方案本身,戴尔也强调端到端,比如戴尔软件可以提供从移动办公管理到信息数据管理再到数据中心和云计算的全面软件解决方案。其中,信息数据管理软件就与大数据直接相关,它包括数据库管理、应用系统及数据集成,以及大数据分析等产品。

全面的软件解决方案

上文提到的SharePlex以及Boomi等就是用户比较喜欢的戴尔软件产品。高国辉举例说,无论是结构化数据还是非结构化数据,无论数据在本地还是云端,通过Booming都可以实现整合和统一管理。“在大数据方面,我们强调的是如何帮助客户实现简化。比如,通过戴尔Toad软件,可以连接不同类型的数据库,借助Boomi还可以将本地的数据库与云中的数据相结合,然后通过戴尔的商业智能套件进行分析和展示,甚至还可以基于戴尔Kitenga软件进行深度数据挖掘。”高国辉补充说。

大数据量解决方案范文第3篇

面对云计算和大数据所带来的挑战和机遇,联想将从“硬实力”和“软实力”两方面进行布局,致力成为全球领先的IT基础架构解决方案提供商。“硬实力”方面:联想将在2013年完成通用型、定制化服务器及存储产品的全球布局。在2014年实现X86服务器进入业界前三,存储业务进入中国第一阵营。并在2016年,使存储进入全球第一阵营,并初步形成以联想为中心的生态系统。此外,联想还将着力提升包括软件、解决方案整合能力、以及端到端服务能力在内的“软实力”。

在行业领域,联想作为IT基础架构解决方案提供商,将为全球客户提供创新、高品质、按需定制的企业级产品和解决方案。在中国区,联想一方面将进一步细分行业市场,在医疗、企业等新兴行业领域实现突破;另一方面,联想将持续强化企业级业务在产品、方案、服务方面的整体实力,同时加强与业界合作伙伴的协同,建立以行业客户应用为中心的体系。

本次活动中的Lenovo|EMC首批网络存储产品包括EMC VNXe和VNX统一存储家族的大部分产品型号。此外,基于上述产品,联想还搭建了“智慧城市视频安控解决方案”、“GIS行业大数据方案”、“数字化医院数据容灾方案”、“保险行业云存储网盘方案”等19个面向政府、医疗、教育、金融、企业、邮电等行业的存储解决方案。依托简单、高效、功能强大的Lenovo|EMC网络存储产品家族,和强大的端到端产品解决方案能力,联想将帮助行业客户实现统一存储、数据共享和数据备份、数据容灾、数据镜像等多样化的方案需求,为客户提供稳定、高效的IT基础架构平台。

大数据量解决方案范文第4篇

几乎每一张图表曲线都显示出强劲的增势,这是Informatica公司主席兼首席执行官 Sohaib Abbasi在6月3日开幕的2008年Informatica World大会上,向现场观众展示公司最新发展状况时的一个图景。

为期3天的大会在美国拉斯维加斯举行,来自全球的上千名不同行业的用户以及Informatica公司的员工,参加了这次主题为“把握先锋”的Informatica公司用户大会。

数据决胜未来

“数据已经成为企业最重要的战略性资产。”Sohaib Abbasi坚信,“比如,数据质量的好坏就直接决定了决策的科学性以及客户维系的紧密程度。Informatica公司的唯一使命,就是通过提供数据集成平台和数据质量管理解决方案,最大化数据价值,帮助企业赢得竞争优势。”

对于所有组织和CIO而言,数据管理的最理想境界是什么?是数据及时、真实、有效,全面支持各种业务,特别是支持组织的管理决策。然而,大多数企业距离这种境界非常遥远,它们面临着各种各样的难题,最主要的包括: 信息孤岛的存在,使得不同业务部门、不同业务环节的数据不能流转和互通; 大量的数据以不同的格式存在,成为一个个碎片,逻辑关系无从谈起,数据的价值被埋没; 缺乏强有力的数据集成方案和数据质量管理方案; 为推进数据共享、提升数据质量所需的业务流程优化、规范制度管理,常常遭遇来自不同部门的阻力。这些问题的存在严重影响到企业的IT投资回报和业务发展。

Informatica公司看到的就是这样一个战略性机会。而要把握这个机会,就必须关注CIO的真实需求。为此,Informatica公司CIO Tony Young身兼多重角色。第一,负责公司IT基础设施和系统的运行维护; 第二,与公司的用户进行沟通,了解他们对数据集成和数据质量问题的需求; 第三,对公司的所有产品进行运营测试。

“我是公司所有新产品的第一个使用者。” Tony Young告诉记者。

全面数据集成

Ellie Mae是美国最大的银行房地产贷款电子商务交易平台服务提供商之一,主要面向银行、房屋贷款中介公司提供软件交易平台和数据运维服务。在Informatica公司“第九届用户创新应用大奖”评选活动中,Ellie Mae获得了“按需定制数据集成奖”。

该公司执行总裁Chris Lin接受记者采访时说,通过采用SOA架构和Informatica Power Center数据集成平台,Ellie Mae公司把银行保存在的CRM系统的数据,顺利地集成到银行用户的数据中心。这样一来不仅将自身从帮助银行用户开发各种个性化的CRM系统的工作中解放出来,大大简化了集成项目的难度; 同时,还省去了数据迁移的繁琐工作,使得客户可以在新旧CRM系统之间平稳过渡。“以往我们帮助客户开发一套CRM系统,从需求分析、写代码、测试,到部署,需要6个月的时间,新旧系统切换时还有业务中断的可能; 而采用Informatica Power Center,我们实施CRM数据集成项目只用了9天。对于客户来说,它们可以选择更加个性化的CRM,并且没有任何业务中断。”

本次大会,Informatica公司了一系列新版本的数据集成解决方案。包括: Real Time Edition 8.6、Power Center 8.6、Power Exchange 8.6等。

Informatica公司数据集成产品线负责人、公司副总裁Griss Pancha说: “过去的数据分析过程往往需要数小时、甚至数天,今天客户对于数据分析的响应需求,已经缩短到以分、秒来衡量,甚至是实时的需求。这就要求企业IT系统提供持续的数据抓取能力,并且能够有效集成各种来源的数据。”

“另外,迅速获得广泛应用的SaaS(软件即服务),也为数据集成提供了新的机会。” Griss Pancha说。这是由于SaaS为用户提供了更加快速和个性化的应用,而数据集成方案又可以帮助他们快速集成SaaS应用模式下的各种数据。

改善数据质量

ACH食品公司在Informatica公司“第九届用户创新应用大奖”评选活动中获得了数据质量奖。该公司首席信息官Donnie Steward表示: “通过使用Informatica的数据质量解决方案和Velocity 方法(Velocity Methodology),我们把客户、供应商和材料的数据转换为SAP,巩固了客户数据库。同时,我们还在6个月内完成了数据清理。最终,我们精简了流程,提高了与合作伙伴开展业务的效率。”

“数据质量问题将全面进入CIO的议事日程。如果一个企业不清楚提升数据质量的方向,数据整合的投资就会被浪费。” 负责数据质量产品线的Informatica公司副总裁Evan Chong说,“Informatica公司的数据质量解决方案可以帮助用户建立一系列规则,有效地提升各种投资回报,使得数据集成的效果发挥到最佳。”

本次大会新的数据质量解决方案包括: Adopt Data Quality 8.6、Adopt Data Explorer 8.6、Adopt Identity Resolution等。

Informatica数据质量所带来的价值都是通过许多创新的应用来展现的。譬如通过在解决方案中大量集成来自不同国家、不同语言的各类知识词典,可以对数据进行智能匹配,从而实现了对数据的“清洗”。

当然,数据质量不仅是技术、工具的问题,还需要有流程、管理制度作为保障,并且与具体的执行情况紧密相关。对于任何组织和CIO来说,数据质量的提升永无止境,提升数据质量注定是一个“积小胜为大胜”的过程。透过2008年Informatica World大会,我们可以强烈地感受到,一场追求更高质量的数据大决战已经开始。

采访手记

“黑马”杀出

创立于10多年前的Informatica公司已经不能算是一家很新的公司,但是它近年来在数据集成领域的快速崛起,依然给人以“黑马”杀出的感觉。

2007年,这家在纳斯达克上市的公司销售收入达到3.91亿美元,近3年来年平均增长率为21%。这一业绩的取得很大程度上得益于5年前的转型,Informatica公司“诀别”BI(商业智能)产品,彻底退出这一竞争对手云集的产品线,转而专注于研发数据集成技术。这一关键的转型使公司获得了重生。

能够取得战略转型的成功,除了目标市场定位的成功,另一个直接原因就是在技术上以开放的“中立者”姿态出现。作为数据集成平台技术提供商,Informatica公司希望自身的产品能够打通各种数据库产品、应用系统之间的数据“通道”。

大数据量解决方案范文第5篇

今天,企业CIO及IT管理员们不仅要面对日益爆炸的数据增长难题,还要负担由此引发的不断上升的用于备份及容灾的主存储成本压力。然而,现在每完成一次全备份,都要备份大量与之前全备份相同的文件和数据,相同数据的多个备份占据了大量的磁盘空间。随着时间的推移,一次备份中的重复数据会充斥在服务器/设备和所有备份工作(全备份及增量备份)中。

重复数据删除这种数据缩减方式可以在很大程度上减少备份数据的数量,这种技术通过减少存储的数据量,改变了数据保护的方式,同时提升了磁盘备份的经济性。现在,重复数据删除技术已经逐步被业界公认为备份技术的下一个发展步骤,也可以说是数据中心中的“必备”技术。

实现绿色存储

多年以前的重复数据删除技术可以被看做是文件级的技术,当时称之为“单一实例存储(Single Instance Store,SIS)”。通过SIS技术,整个文件系统或电子邮件系统的重复文件可以被减少为单一拷贝,当再出现这一文件时,会被指向到这一单一拷贝,从而降低了存储容量需求。当时这一技术通常被用于电子邮件的管理及归档系统。

今天的重复数据删除技术利用了与SIS类似的数据缩减概念,但却使之向前迈进了一大步――实现了块级(子文件)重复数据删除。当读取数据时,系统利用Hash算法识别惟一的数据块,系统将保留Hash索引,每个Hash编码指向一个不同的数据块。当新的备份发生时,会自动与现有的块进行比对,如果索引中已经有相同的块,数据将会被删除或者被指向块的指针所代替;反之,则会被保存并在索引中为其创建一个新的Hash编码。

与文件级SIS技术相比,块级的重复数据删除技术更有优势,其可以在不同的文件或应用中消除冗余数据块。比如,如果一个文件只做了相当小的一点修改,块级重复数据删除技术则将只保存发生变化的数据块。通过这种方式,块级重复数据删除可以提供更好的压缩比率,特别是在巨大数据量的情况下,如数据库或全备份之后。

如果一个企业向1000个邮件地址发出一封带有注册内容的活动邀请函,传统的备份应用将会把文件备份1000次。SIS解决方案则可以识别出文件是相同的,将只会保留一份备份,然后生成999个指针指向那个惟一的备份,因此,大概可以节省99.9%的存储空间。但是,之后这1000个参会人可能会将注册内容填好后回复给发件人,由于他们的名字不同,SIS技术就会备份1000份回执。

而块级重复数据删除解决方案在发出邀请函的时候执行了相同的重复数据删除处理,实现了99.9%的存储空间节省;同时,当收到1000份参会人的回执时,块级解决方案会发现每个回执的大部分内容与第一封收到的邮件是相同的,并且已经备份过,因此,它只会对其他999封回执的相异数据块(块级)进行备份。这样,就可以节省额外的99.9%的存储空间。

由于重复数据删除技术只保存了发生变化的数据,这就降低了企业所需的备份容量,使用户不用再像以前一样需要购置大量的磁盘,从而将用户备份系统的总成本降到了最低。而更少的磁盘也使得存储系统变得更少,电力及制冷需求更小,同时还降低了系统的复杂性。

可以说,与传统的磁带备份解决方案相比,重复数据删除技术还改变了磁盘备份的经济性。通过这一技术,更多的用户可以负担得起用磁盘备份整个替代或是部分替代磁带备份。而磁盘备份相对于磁带备份来说,提供了更好的备份及恢复性能,通过利用磁盘备份的方式,用户还可以进一步改善他们的服务品质协议(Service-Level Agreements,SLAs)。

当通过数据复制实现灾备时,由于减少了备份的数据量,重复数据删除技术将主站点与远程数据中心之间的带宽需求、数据传输成本、复制时间都降到了最低,企业利用相对经济的WAN网络即可在任意地理空间范围内执行复制,这就实现了额外的成本节约。这些空间和成本上的节约正是绿色存储所倡导的。

当然,由于重复数据删除技术还处于发展和应用的初期,目前市场上的重复数据删除解决方案也存在着很大的差异,很多问题尚未得到很好的解决,有些解决方案甚至会使备份处理的速度变得很慢。因此,用户在选择和部署时要特别注意。

集群成为新发展方向

重复数据删除比率往往是用户在选择重复数据删除技术时最为关心的一个问题,也可以说是直接触及用户底线的一个指标。目前,不同厂商向外界声称的比率差距很大,从20∶1到50∶1,甚至高达300∶1或400∶1。由于重复数据删除与详细的备份数据和备份策略直接相关,从一种环境到另一种环境所产生的重复数据删除比率也会有很大的变化,即使它们是基于同一种重复数据删除运算法则的。因此,厂商公布的重复数据删除比率不能作为用户选择的惟一标准。

事实上,重复数据删除比率与所要处理的颗粒精细程度相关。理论上讲,更细致的颗粒会带来更高的重复数据删除比率。然而,更细致的颗粒也意味着大量的Hash表,这就会导致重复数据删除性能下降以及更高的CPU消耗。所以,在现阶段,一个合适的重复数据删除比率对于更好地发挥重复数据删除的作用至关重要。一般来说,10∶1的重复数据删除比率是很现实的评估起点,足以满足一般性的业务应用规划需求。

从性能的角度来看,单台重复数据删除服务器/设备一般无法满足每天需要备份的成百TB数据量或大型企业每天需要多次备份的需求。在这种情况下,重复数据删除反而会造成瓶颈。一些企业考虑用两台或多台设备来完成这一工作,但由于每台设备都保留了自己的Hash索引,设备根本不能鉴别出重复的数据是否已经由另一台设备所备份。这种方法不仅会影响到重复数据删除的比率,还会增加维护的工作量。

此外,单台重复数据删除服务器/设备还会造成单点故障。如果重复数据删除服务器/设备发生故障,所有的备份工作则都将失败,甚至会造成恢复过程的失败。尽管单台重复数据删除服务器/设备在实际应用过程中出现故障的情况非常少见,但对企业来说还是一个潜在的、无法接受的风险,因此企业必须要特别注意。

针对这个问题,重复数据删除集群成为了重复数据删除技术发展中的一个新趋势,即利用双工故障切换架构。在集群的重复数据删除架构中,两台或四台重复数据删除设备被虚拟化为一台,为用户提供了双倍或四倍的吞吐及处理能力。如果他们中的任意一台出现了故障,另外的设备就会自动地接管它的工作负荷,以确保处理的连续性。由于集群仍然保留的是单个的Hash表,因此它不会影响到重复数据删除比率。

根据需求选择重复数据删除方式

目前市场上的重复数据删除解决方案提供了多种删除重复数据的方式,如果想找出最适合用户自身需求的方式,需要考虑两大关键性因素:在哪里进行重复数据删除,源数据端还是目标端?在备份处理的哪个阶段删除重复的数据,在备份过程中还是在备份之后?

源数据端

一些重复数据删除产品是在源数据端工作的,这就意味着它们是位于主机或应用服务器上的,这种方式要求为每一台需要进行备份的机器都安装重复数据删除系统。当数据传送到备份软件之前即识别重复数据并删除。

这种重复数据删除方式使得数据在网络传输前就减少了,这就改善了传输性能,节省了网络带宽;从扩展性角度来看,整体性能与客户端的数量无关,因此在进行扩展时不会影响到备份性能;由于是在重复数据删除处理的同时传输数据,因此在处理过程中不再需要额外的存储设备。

当然,这种处理方式也有它的缺点:必须在每一台备份服务器上安装重复数据删除系统;重复数据删除处理运行于应用服务器上,会消耗服务器的运算能力,影响到应用性能。

目标端

目标端的重复数据删除处理通常是运行于一立于主机或应用服务器之外的设备之上。目标端重复数据删除解决方案与现有的备份软件相整合,运行于备份服务器上。备份数据先发送到重复数据删除设备,重复数据删除在后端完成。

相对于源数据端方式,企业无需改变其当前的备份系统,也无需更换应用服务器;由于其不会消耗应用服务器的运算能力,因此应用性能不会受到任何影响;重复数据删除服务器能够从不同的备份客户端删除所有冗余数据。

当然,由于目标端重复数据删除是先将数据传到备份设备,存储时再删除重复的数据,这无疑就浪费了传输过程中的资源。

在线处理

在线处理的重复数据删除,是指重复数据删除服务器/设备从备份软件开始传输数据,数据还没有写入磁盘之前,即执行重复数据删除。其最大的优点是经济高效,可以降低对存储容量的需求,并且不需要用于保存还未进行重复数据删除的数据集的临时磁盘空间。

在线处理的重复数据删除减少了备份数据的数量,但同时也存在一个问题,处理本身会减慢备份的速度。正是因为重复数据删除是在写入到磁盘之前进行的,因此重复数据删除处理本身就是一个单点故障。

后处理

后处理的重复数据删除,也被称为离线重复数据删除,是在备份处理完成后再执行重复数据删除。备份数据先被写入到临时的磁盘空间,之后再开始重复数据删除,最后,将经过重复数据删除的数据拷贝到末端磁盘。

由于重复数据删除是备份完成后在单独的存储设备上执行的,因此不会对备份处理造成影响;管理员可以随意制定重复数据删除的进程;先将备份数据保留在磁盘上再进行重复数据删除,企业在需要时可以更快速地恢复最近备份的文件和数据。而后处理方式的最大问题在于它需要额外的磁盘空间来保存全部还未删除重复数据的数据集。

企业可以根据自身的实际情况和需求,选择在源数据端或是目标端进行重复数据删除,在备份过程中或是备份之后删除重复的数据。从某种角度上讲,在线处理的方式也许更适用于小型企业的需求,而后处理方式对于中型及大型企业来说更适合。

选择重复数据删除时的五大要点

由于业务应用的需要和法律法规的要求,存储的数据量还在不断增加,在大幅消除数据量、削减存储需求、最小化数据保护成本和风险方面,重复数据删除技术成为了越来越多企业的选择。而为了使重复数据删除技术的功效最大化,用户应该从以下几个标准出发,充分考虑、仔细评估,找到真正适合自己的重复数据删除解决方案。

第一,能与当前环境相整合。

一个高效的重复数据删除解决方案对企业当前IT环境的影响和中断应该是最小的。很多企业都选择利用VTL备份来避免影响或中断,以在不改变企业当前备份策略、处理或软件的情况下提升备份质量。此外,企业应该将更多的注意力集中在备份这个重复数据的存储池上。

基于VTL的重复数据删除解决方案通常要求使用专用设备,但这并不影响部署的灵活性。一个充分灵活的重复数据删除解决方案应该既可以以软件包的形式提供给用户,也可以提供给用户整体的解决方案,从而最大限度地使用户的现有资源得以利用。

第二,具备可扩展能力。

由于重复数据删除解决方案是用于长期数据存储的,因此,容量和性能的可扩展能力也是非常重要的考虑因素,而且至少要考虑未来五年甚至更长时间的增长计划。那么,在保证快速访问的前提下,需要怎样的数据索引系统呢?

重复数据删除解决方案提供的架构,无论是在初始部署时,还是面对未来系统的长期增长,都应该能保证最优化(Right-sizing)、最经济的架构规模。集群可以帮助用户满足不断增长的容量需求,即使是很多Petabyte数据增长的环境,也不应该牺牲重复数据删除的效率或系统的性能。

第三,支持分布式应用。

重复数据删除技术不应该只是为单个数据中心带来效益,对于具有多个分支机构或多个站点的大型企业来说,其应该可以让整个企业的分布式应用都受益。一个包含复制和多级重复数据删除的解决方案可以将这一技术的优势发挥到更好。

比如,一个企业由1个总部和3个区域代表机构构成,可以在区域代表机构部署一台具备重复数据删除功能的容灾设备,使本地存储及向远程中央站点的复制更高效,这种解决方案使得数据复制到中央站点的带宽需求也降低了。

第四,能够对存储库提供实时保护。

保证对删除重复数据的存储库的访问是非常关键的,因此不能允许有单点故障发生。重复数据删除解决方案应该包括可以在本地存储发生故障时提供保护的镜像功能,同时也应该具备复制功能以在灾难发生时提供保护。这种解决方案还应该在节点出现故障时具备故障切换能力,即使是一个集群中的多个节点出现故障,企业也必须能够及时恢复数据,同时还要保证业务的持续运营。

第五,满足绿色环保的要求。

Gartner的报告显示,2008年,将有50%的数据中心出现电力及制冷不足的情况;IDC的研究报告也显示,IT部门正在将硬件1/4的成本花在电力上。因此,重复数据删除解决方案必须符合绿色环保的要求。

MAID技术可以利用大型的磁盘驱动器组减少电力消耗,因为这些磁盘驱动器只在任意设定的时间才工作。

链接

关于重复数据删除技术

重复数据删除技术在减少需要备份的数据量、最大化存储利用率的同时,使更多的备份数据在线保留了更长时间。一般来说,重复数据删除技术会将最新的备份数据与之前的备份数据进行比对,从而消除冗余数据。这项技术的最大优点在于数据的减少不仅使存储的效率更高、成本更节约,带宽的利用也降到了最低,使更经济、更快速的实现备份数据的远程复制成为了可能。

理论上讲,重复数据删除技术可以用于任意地点,其可以与在线或是离线的数据一起工作,可以在文件系统或是数据库应用,也可以在其他地方应用。总的来说,哪里有大量的重复数据,其就能在哪里发挥作用。

而最好的应用示例是在企业级备份。企业大都是每天做一次全备份,两日的全备份中通常只有很小部分――不会超过5%的数据是不同的,大部分备份扇区都是相似的。在这种情况下,重复删除为备份系统带来了空间和成本的节约。因此,目前大多数重复数据删除解决方案都是专为备份系统而设计的。

作者简介