首页 > 文章中心 > 高性能计算

高性能计算

高性能计算

高性能计算范文第1篇

美国ASCI计划

美国能源部自1996年开始了一项名为ASCI计划的高性能计算机研制项目。该计划是在全球全面禁止核试验的情况下,美国为了保持其核威慑及核垄断地位而提出的一项计划。目前,世界上绝大多数最快的超级计算机都是这个项目的产物,其中主要的代表有IBM公司研发的Blue Gene和Cray公司研发的Red Storm。

1. IBM蓝色基因

Blue Gene是IBM、美国LLNL实验室和美国能源部合作的一项研制超级计算机的项目代号。项目计划是制造峰值性能达到每秒千万亿次级别的超级计算机。这是一个分阶段的项目,目前性能已经达到每秒360万亿次。现在正在研发的Blue Gene项目共有四种机型:Blue Gene/L、Blue Gene/C、Blue Gene/P和Blue Gene/Q。

Blue Gene/L采用了与以往设计完全不同的方法。系统由大量节点组成,每个节点的处理器不再追求高性能、高主频,而是相对适中,从而实现了低功耗和低成本。Blue Gene/L通过PowerPC的嵌入式处理器、嵌入式DRAM和片上系统技术把计算处理器、通信处理器、三级Cache和带有复杂路由的互联网络部件集成在一起。由于采用这样的低功耗、低主频设计,导致了整机的低功耗和高密度,可以把1024个计算节点放置于一个机柜当中。通过这样的方式把用于节点通讯的功能单元和处理器集成在一起,降低了成本。2004年9月,IBM公布了Blue Gene/L原型,当时的性能是每秒36.01万亿次。它以这个速度替代了NEC的地球模拟器成为世界上最快的超级计算机。截止到2006年6月,世界最快的前10台超级计算机中有3台是Blue Gene,前64台中有13台。

Blue Gene/C计划现在已经更名为Cyclops64。这个计划的目标是制造第一个“片上超级计算机”。每个Cyclops64芯片预计运行在500MHz主频下,包含80个处理单元。每个处理单元包含两个线程单元和一个浮点单元。处理器通过96口和7级的交叉开关互联,而且它们可以通过片上的SRAM进行通讯。单片的Cyclops64芯片的理论峰值将可以达到每秒8000亿次。整个系统将可以包含13824个芯片、1105920个处理单元以及可以同时运行2211840个线程。Cyclops64软件系统采用了Delaware大学的TiNy线程库,提供给用户良好的可编程界面。

Blue Gene/P计划是一个结构上类似于Blue Gene/L的项目。它的目标峰值性能将达到千万亿次。目前在美国的LLNL实验室部署的代号为Roadrunner的超级计算机,被认为有可能是该计划的一个具体应用。Roadrunner采用了混合式设计,它采用了16000个AMD的皓龙处理器以及相当数量的Cell处理器。由于Cell处理器具有良好的浮点运算性能,通过Cell处理器的运用将大大增加Roadrunner的峰值运算性能。如果IBM能完成这个系统,那么它将成为世界上最强大的超级计算机系统。

Blue Gene/Q计划是IBM面向未来的超级计算机研制计划,目前关于该计划的细节还知之甚少,该计划的性能目标将达到每秒3千万亿次~10千万亿次。

2.Cray红色风暴

针对ASCI项目,Cray公司提出了代号为Red Storm的超级计算机架构。第一台使用这个架构的超级计算机,在2004年被部署在美国的SNL实验室。这台机器包含有10368个处理器,拥有10TB的分布式内存和240TB的磁盘存储。该系统使用AMD的皓龙处理器作为处理单元,使用PowerPC 440的处理器作为通讯处理器。系统由计算节点和服务节点两个部分组成。计算节点运行称作Catamount的轻量级操作系统,服务节点运行Linux操作系统。该系统主要是为了替代ASCI Red,理论峰值将达到40万亿次。 ASCI随着第一个十年计划的完成,目前已经开始了第二个十年计划,该计划已经更名为ASCP(高级模拟与计算计划)。最新的发展规划认为第一个十年主要是通过开发一系列强大的工具和系统,验证基于模拟研究方法的可行性。第二个十年计划将要真正利用这些系统进行科学探索,进一步提高精度和正确性,逐步把模拟作为一种预测工具用于前沿的科学研究。同时第二阶段全面把下一代超级计算机系统的验证目标设定为每秒千万亿次。

美国HPCS计划

除了ASCI研制计划之外,美国国防部高级研究计划局于2001年初提出了HPCS(高效能计算系统)计划。该计划的目标开始就是面向千万亿次规模的计算机系统需求,针对当前高端计算机系统开发以及应用中存在的问题,研制适合于高端国家安全应用的高性能计算系统,填补目前高性能计算和量子计算之间的空白。

HPCS计划为期8年,分为三个阶段实施。第一阶段为概念研究阶段,第二阶段是研究、开发阶段,第三阶段是大规模开发阶段。整个HPCS的主要设计目标是高性能、良好的可编程性、可移植性以及可靠性。高性能的主要目标是在美国重要的国家安全应用方面,将目前的系统性能提高10~40倍;可编程的主要目标是减少HPCS应用方案的开发时间,降低系统的运行以及维护成本,提高系统使用效率;可移植性是指将研究和运行的HPCS应用软件和系统平台分离;可靠性的目标是针对外界的攻击、硬件故障以及软件错误开发相应的保护技术。因此HPCS主要提出的课题有:高带宽、低延迟、平衡的系统结构、可靠性策略、性能测试、系统伸缩性。

2002年开始的是为期一年的HPCS概念研究阶段。参与这个阶段研究的厂商主要包括Cray、HP、IBM、SGI和Sun五家,还有MIT的林肯实验室专门进行应用分析和性能评测。经过竞争和淘汰,第二阶段参与的企业为Cray、IBM和Sun三家。

1.Cray两步走

Cray计划分两步完成自己的千万亿次设计目标。第一阶段推出一种称为Rainier系列的机器,以整合Cray现有的XD1、XT3、X1/X1E三种平台,形成一种新的Rainier的计算节点也是异构的系统,包括基于AMD皓龙处理器的标量计算节点、向量计算节点,还包括其他特殊计算节点,比如FPGA可重构节点和MTA多线程节点等,各种不同的处理器节点在统一的框架下进行管理。

第二阶段Cray计划推出一种名为Cascade的平台,这是Cray更为长期的一项计划,将融合更多的创新性技术。Cascade将采用统一的高带宽光互联网络,节点将包含向量部件、粗粒度的多线程处理器、与DRAM结合支持细粒度并行的PIM部件等。Cascade还提供分布式共享内存、多层次多线程执行模型、硬件支持的分析和调试功能。编程模型上提供对UMA和NUMA的混合模型,并计划开发一种高级编程语言。

2.IBM PERCS计划

IBM针对HPCS提出了PERCS计划,该研究包括处理器、存储控制、I/O、编译和运行环境等各个方面的研究队伍。其主要的研究内容包括:片上多处理器,PERCS将采用IBM Power7处理器;智能内存,将在DIMM内存条上增加一个智能Hub芯片,实现预取、Scatter/Gather、重排序、缓存等功能;在编程模型方面,实现了一种名为X10的编程语言,而且支持OpenMP。此外,IBM还专门开发了一种称为K42的操作系统,专门支持大规模处理系统;为了进行前期的研究,他们还开发了PERCSim模拟器来支持各个研究小组的工作。

3.Sun HERO项目

Sun提出了HERO项目,其中一些核心的创新技术包括:片内多线程技术、Proximity通讯技术、区间计算技术、保护指针。

目前,HPCS已经进入第三阶段,其中Sun被淘汰出局。现在IBM和Cray公司基于各自提出的技术开始为HPCS制造运算速度千万亿次的超级计算机。

日本高性能计算进展

除了美国,日本很早就从事高性能计算机的研制工作,其中比较有代表性的是NEC公司。

1983年,NEC就了其代号为SX-1和SX-2的超级计算机,其后几乎NEC以5年一代的速度不断推出新产品。

2002年,NEC为日本太空探索局等机构安装的地球模拟器速度达到了每秒35万亿次,拥有超级计算机领域最高性能桂冠长达3年之久。

地球模拟器通过设置“虚拟地球”以预测和解析整个地球的大气循环、温室化效应、地壳变动、地震发生等自然现象。硬件上地球模拟器的设计基于NEC以前的一款名为SX-6的超级计算机的架构。

整个地球模拟器包含640个节点,每个节点包含8个向量处理器和16GB内存,整体上组成5120个处理器和10TB内存的超级计算机系统。其中两个节点共享一个机柜,每个机柜耗电20 kW。系统具有700 TB的磁盘阵列和1.6 PB的磁带存储。地球模拟器几乎比同时代的美国的ASCI White超级计算机快5倍。NEC从1999年10月份开始构建这台超级计算机,到2002年才正式完工,共耗资72亿日元。

日本的科研机构和大学在超级计算机方面也获得很大的成就。2006年6月,日本的RIKEN研究所宣布他们完成了一台名为MDGRAPE-3的超级计算机系统。这是一台专用于分子动力学研究的超级计算机。该机器由总共4808个定制的MDGRAPE-3芯片,外加用于主控的Xeon处理器等组成。

该研究所宣称MDGRAPE-3性能已经达到千万亿次的目标,比目前最快的超级计算机Blue Gene/L还要快3倍,但是因为其专用性,不能运行Top500的测试程序,因此无缘Top500排行榜。除此之外,日本东京大学的GRAPE项目也在高性能计算的某些领域获得了很高的成就。

中国高性能计算进展

除了美、日之外,我国在高性能计算机方面的努力也很值得关注。有很多从事高性能计算机研究的企业和科研单位涌现出来,比如开展高性能计算算法研究的单位有中国科学院、中国工程物理研究院、国防科技大学、中国科技大学等单位。硬件制造也有不少单位,比如曙光信息产业有限公司、联想集团等。他们在各自的领域获得了很多令人瞩目的成就。

2004年6月,浮点运算速度达到每秒11万亿次的曙光4000A超级计算机落户上海超级计算中心。这台超级计算机进入当时的全球超级计算机排行榜前10名,使得我国成为继美国和日本之后,第三个能研制10万亿次商业高性能计算机的国家。

曙光4000A在大规模集群计算、网格技术等方面有所突破,形成了鲜明的技术特色。曙光4000A在工业标准的主板尺寸上实现了4个64位AMD皓龙处理器的SMP系统。2U的服务器采用标准的机箱、电源、风扇等部件,有独到的通风设计和部件布局。通过网格路由器、网格网管、网格钥匙、网格视图等网格部件的研制,曙光4000A在网格环境下能更好地服务于具有多样性的用户需求。通过在主板上集成管理接口,开发大规模集群专有的管理网络,使得大规模集群能够被有效地管理和控制,使得管理员不需要靠近计算机就能控制其运行。通过合理划分集群软件栈,将公共支撑部分提取成为集群操作系统的核心,改变了集群上系统软件缺乏统一框架的现状。曙光4000A的Linpack实测速度达到每秒8.061万亿次,效率达到71.56%,这个结果是当时世界上所有采用AMD皓龙处理器的高性能计算机中速度最快且效率最高的。曙光4000A跟ASCI White相比,价格是后者的10%,系统占地是后者的60%,功耗为后者的30%。

联想公司承担着国家863计划“高性能计算机及其核心软件”专项课题,在此基础上制造了深腾6800超级计算机,该计算机于2003年10月完成。深腾配置了1060个64位安腾2代处理器、2.6TB内存、80TB磁盘存储。

高性能计算范文第2篇

图像处理在如今的计算技术中扮演着越来越重要的角色,在CPU不断更新换代的趋势下,作为图像处理核心芯片的图像处理器(GPU)也在探索自己的出路。SGI作为老牌的图形计算厂商将如何应对计算技术的变迁?

地点: 北京希尔顿酒店

人物: SGI首席技术执行官兼高级副总裁 吴永琳

时间: 2007年6月27日下午

GPU在计算领域的地位并不比CPU低,然而随着近年来CPU技术的不断发展,GPU与CPU的并存、GPU本身的发展逐渐成为GPU厂商不得不面对的问题。

GPU能否打败CPU

刘保华:对于GPU与CPU的并存,SGI如何平衡两者之间的关系?对于未来5~10年的发展,SGI又做何考虑?

吴永琳:10年前GPU所遇到的挑战还不算大,如只需保证10000个数据输入、计算后能输出100万个像素并进行显示就可以了。这类应用中,输入数据明显少于输出数据,我们称其为“小进大出”。而今天,用户的图形计算模式越来越复杂,显示结果上却没有太大的变化,1000万个数据输入后,输出的可能还是100万个像素。图形芯片已经从“小进大出”变为“大进小出”。在过去几年中,在GPU上运行的越来越多的客户应用模式已改成了“大进小出”。所以,我想未来大家会用的是嵌入GPU技术的CPU,而不会是独立的GPU了。

刘保华:您认为未来作为独立芯片形态的GPU将被CPU替代而不复存在?

吴永琳:依我看,将来把多核CPU芯片打开后,里面可能有几十个CPU和1个GPU,而另一个可能是几十个CPU和8个、甚至更多的GPU。20年前买CPU时,里面是没有GPU的,所以还必须另外买一块显卡。而未来,不管你用不用,图形处理功能可能都已经嵌在CPU芯片中了。

刘保华:可是,有的图形芯片厂商看法与您恰恰相反,他们认为GPU计算性能提升的速度比CPU要快得多,未来希望用GPU来替代CPU。

吴永琳:每次听到GPU的发展会比CPU快,我就会问道理何在?GPU比CPU性能增长快的原因是GPU的结构简单。在GPU中可以一下子放进去很多内核,但面临的很大挑战就是如何解决好并行计算的编译问题。

CELL处理器与GPU有些相似之处。CELL有一个比较复杂的CPU内核,而其他内核则越简单越好。但是GPU和CELL都面临着两个难题:一是要做一个自动的编译器,二是如何做到自动并行。Intel的做法是芯片内每个核都是平等的,这样做的好处是编译器比较容易做。

刘保华:这么看来,核心问题仍然是编译技术?

吴永琳:对。如果你告诉用户,使用GPU可以把计算性能提高10倍,他会高兴地说要买。但是,当你又告诉他,用户必须等3年的时间才能把现有的应用移植到GPU上运行,那么大部分用户都会说:“我不等了,我不能为10倍的性能等上3年。如果你能在3个月内把性能提高3~4倍,我就立即买。”

多核对HPC的影响

近几年来,随着多核技术的出现,高性能计算技术出现了快速变化的局面。各大厂商都在CPU上集成多个内核,这也产生了诸多问题,如内存读取的问题和编程上的问题等。现在CPU的计算技术正处在一个混沌且快速变化的阶段。

刘保华:您认为下一代的高性能计算平台是什么样的?除了多核以外,还有什么新的途径可以提升高性能计算能力?

吴永琳:目前很多处理器厂商都选择了多核技术,我认为,在未来10年,多核可能会是提高计算机计算能力的主要途径。双核、4核已经问世,8核、16核很快也会出现。在不远的将来,32核、64核乃至128核也是有可能实现的。但多核技术也面临一些问题,问题的关键就是我们需要开发与多核处理器相配套的应用软件,自动、并行的编译器会变得越来越重要。

目前的软件在读写128个处理器时,是分内存写的,而当用户改用128个内核处理器时,如果不改为共享内存,那么就无法充分发挥128个内核处理器的性能。

SGI早在几年前就采用了共享内存技术,这样做恰好顺应了当前多核发展的趋势,使得原来的旧软件可以在新的多核处理器集群系统上运行。事实证明,我们当初的决定是正确的。

刘保华:集群系统已经很普遍了,但当集群系统拥有几百个服务器的时候,整个系统的运行效率就会大幅下降。集群模式发展到一定程度时是否会出现瓶颈?

吴永琳:的确如此。随着多核技术的发展,集群模式计算效率低下的问题会更加严重,将来10个处理器可能需要运行1000个并行程序。之所以计算运行效率低,主要原因是,需要并行处理的内核越多,内核之间的通信数据量就会越高。随着这种指数级数据量的增高,系统对带宽的需求也会越高,同时要求降低响应延迟。这也正是集群处理器的发展瓶颈所在。

刘保华:除了您刚才说的共享内存技术外,还有什么新技术能够解决由于过多通信造成集群性能大幅下降的难题呢?

吴永琳:当我们反思为什么软件运行效率如此低下时,发现有以下两个因素:第一是带宽延迟,第二是编译器的问题。针对带宽延迟问题,我们现在正在做研究,SGI的NUMAlink技术会解决一部分带宽延迟的问题。OpenNP和MTI等开源编译器需要通过合作的方式来解决,目前我们和Intel正在进行编译器方面的合作。

除了解决上述两个问题之外,有一些用户还需要将其应用软件进行重新修改,这是比较困难的。目前,SGI有20多名软件工程师帮助客户进行应用软件的并行优化工作,并且负责针对软件的调试。但是上述工程师主要是负责咨询建议的,具体的开发工作还需要客户自己努力完成。

HPC软件困扰

刘保华:我发现处理器本身发展速度非常快,Intel也在做芯片平台。但高性能计算面对的主要限制就是在软件部分,为什么软件的发展总是滞后于处理器的发展速度?

吴永琳:这同样是SGI最为头痛的问题。根据摩尔定律,处理器的运算速度每18个月可以提高一倍,因为我们每次将处理器晶体管尺寸缩小一些,那么处理器里包含的晶体管个数就可以增加一倍,所以硬件这几年发展非常快。

但是软件就无法遵守摩尔定律了,因为软件是人脑开发的,不可能随着处理器运算速度的提高而同步提高。随着软件本身的规模越来越大,仅仅增加人手并不能加快软件开发进度。而且,即使增加人手,也将受到资金投入的限制,开发人员的数量不可能无限量地增加。

刘保华:您说的我特别赞同,硬件本身更多的是制造工艺问题,而软件更多的是人的问题,这是完全不一样的。我们发现SGI近几年开始使用Linux操作系统。而Linux本身并没有一个完整的商业模式,不是一个系统化的东西,这必然会对SGI的商业化运作产生一些影响。与此同时,SGI还要与Intel保持紧密的合作关系,请问如何处理商业伙伴和非商业伙伴之间的合作关系?

吴永琳:协调这两者的关系对于SGI而言是一个挑战。Linux有一个突出的优点,即不必投入物力和财力来自行开发操作系统。但是Linux同样存在弱点,比如我们需要在Linux环境下运行1000个CPU,对于标准Linux操作系统而言,并不能同时管理1000个CPU,我们的客户同时要求1000个CPU共享内存,怎么解决?

虽然我们有解决办法,但是这个办法并不是最好的:我们需要将自己独有知识产权的技术移植到Linux操作系统上,这对于SGI而言是非常有挑战的,因为需要将知识产权向Linux开源组织公开(比如IRIX软件)。对于Linux开源组织而言,SGI做出了相当大的贡献,包括有关HPC技术和文件系统。当然,这种贡献是合作的基础,是SGI与Linux合作所必需的。

此外,当Linux新的内核或者有了重大改动后,SGI必须投入3~5个工程师将Linux的改动移植到我们的高性能计算机中,并进行测试。我们不仅要做系统的测试,还要针对ISV的所有软件进行测试。

刘保华:那为什么还要坚持开源和Linux呢?

吴永琳:首先,如果我们不用开源操作系统,就必须要有几百个人来管理我们的操作系统。其次,最重要的原因是我们不再开发IRIX操作系统了。因为ISV需要针对目前主流操作系统HP-Unix、AIX、Linux以及Solaris等的每一次更新进行升级,SGI不想再增加ISV的开发负担。采用Linux,就是一种比较好的解决办法,ISV不需要再专门针对SGI专有操作系统进行软件开发测试。目前SGI近一半的收入来自这些ISV,这样做可以大大降低ISV的开发费用,于人于己都有利。

刘保华:现在有一种说法,Intel增加处理器内核的做法,代表了一条通用道路,但也有厂商认为未来的高性能计算的处理器和它的整个计算平台有可能走更专业化的道路。您认为未来高性能计算将会呈现出什么样的发展态势?

吴永琳:问题还是软件方面,FPGA有一些非常出色的软件,但是编写起来并不容易。目前FPGA上出现了新的编译器,C程序会被自动编译到FPGA上。现在,诸如RISC、FPGA、CELL处理器成功就取决于自动编译器的发展。如果没有自动编译器把程序编译到CELL之类的处理器上,这些处理器最终取得成功的可能性也就不高。

SGI的发展

目前,国内外厂商都很关注高性能计算机的进展。全球TOP500最新一期榜单上排第一的是IBM蓝色基因,而Sun也要做新的计算平台,超过IBM的蓝色基因。

刘保华:在我的印象中,SGI一直都在做高端计算,但是近两年感觉到SGI的高性能计算能力变弱了,这是跟SGI的策略有关系,还是跟技术发展方向有关系?

吴永琳:高性能计算的确是各大计算厂商关注的焦点,但是TOP500榜单并不能反映商业用户的实际需求,其中榜单上有很多产品主要是用于科学研究的,并非是可以提供给客户使用的实际产品。SGI制造的高性能计算机是用于商业用途,面向普通用户的,所以TOP500排行榜并不是SGI的发展方向。需要说明的是,如果用户需要更高性能计算能力,我们也可以根据需要制造出性能更快的机型。

对于SGI而言,高性能计算机的产品利润是摆在第一位的,我们要做的产品就是要出售的产品,是要实际交付用户使用的产品,而不是单纯为进排名而做的科研产品。

刘保华:随着CPU性能越来越强,可视计算会越来越热,而且在个人平台上未来终极目标之一就是可视计算。SGI老本行就是做可视化计算,你们怎么没有在这方面做工作?

吴永琳:如果未来图形计算90%还是“小进大出”的话,我看可视化计算很容易实现,因为你需要计算的数据量很小,你也不必把图形芯片和处理器集成在一起。“小进”,就是说计算的数据量很小,很容易把数据传输出去。但是如果大部分工业计算(30%~40%)都换成“大进小出”,如我们有10TB的计算数据要传输到显示芯片上,目前的带宽肯定无法满足大数据量传输的需求,那么可视化计算就有意义了。

刘保华:从定位上讲,SGI以后关注的重点是高性能计算还是工作站?

吴永琳:我们关注最重要的还是高性能计算,SGI Altix ICE 8200是我们目前的重头戏;其次是存储。越来越多的客户,虽然他们对于高性能计算机的体积和功耗有一定需求,但是存储带宽才是他们最关心的问题。举个例子,有的客户可能会用几个小时来对一个问题进行计算,但是在计算的过程中需要存储6TB的计算数据,这对于数据存储带宽提出了很高的要求。目前SGI已经将文件写入速度从1Gbps提高到20Gbps。

我们第三个需要考虑的重点是图形计算方面,可视化计算会是一个关键。如果“小进大出”仍然占据市场需求主流的话,我们可能不会在图形计算上花太多的精力。但是最近出现了一个趋势,越来越多的客户开始对“大进小出”提出了需求,所占比例从20%不断增长到40%。因此SGI已经做好适应这种变化的准备,一旦用户对可视化计算提出需求,我们可以立刻做出相应的反应。

刘保华:IBM已经做了一个刀片服务器的标准,虽然没有成为一个国际的通用标准,但是现在参与的厂商很多。国内厂商曙光公司牵头也做了一个高性能计算的标准,实际上也是刀片服务器的标准。SGI如何看待标准对这个产业的推动?SGI有没有针对行业标准的计划?

吴永琳:刀片服务器的标准主要还是取决于操作系统。目前,SGI只支持Linux操作系统,而且我们支持的也是标准的Linux。我们为了支持Linux的开源工作,贡献了不少具有知识产权的技术。就目前来看,SGI对于Linux操作系统的态度,决定了我们的刀片服务器的标准性和规范性。

记者手记:顺应潮流

人们关注开放大潮下的各种应用,但未必会留意像SGI、Sun这些原本自成体系的系统厂商是如何顺应开放潮流的。

自成一体曾经是高端计算市场的特征。但当以Intel为代表的x86与安腾处理器和以Linux为代表的开放大潮来临时,SGI和Sun都受到了冲击。对用户而言,开放带来的不仅有价格上的实惠,而且还增加了选择的范围。

在开放大潮的冲击下,厂商们也各有各的套路。Sun在硬件上除了保留自己的SPARC架构外,还先后引入了AMD和Intel的处理器;在软件上,Sun则开放了Solaris操作系统和Java的源代码。SGI则在去年宣布放弃MIPS架构,转而采用Intel的至强和安腾;操作系统上并没有开放自己的Unix,而是采用Linux。

在发展方向上,SGI近几年也有了较大的变化。在SGI网站上,2004年SGI对外介绍是“全球高性能计算、可视化技术和复杂数据管理方案的领先供应商”,现如今则变为“全球高性能服务器和储存解决方案的领先供应商”。具体到计算领域,就是用刀片服务器构成集群来主打商用高性能计算市场。

高性能计算范文第3篇

关键词:高性能计算;Amazon 弹性计算云;LSF;PAC

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)28-7024-03

A Solution of HPC Platform based Amazon EC2

LI Jin-long1, ZHU Jie2, LIANG Dian-peng2

(1.Information and Control Engineering School, Xi'an University of Architecture and Technology, Xi'an 710055, China; 2.Platform Computing (Beijing) Software Corporation Xi'an branch, Xi'an 710071, China)

Abstract: Based on Amazon Elastic Compute Cloud(Amazon EC2), together with Platform LSF and Platform Application Center, the paper propose a solution of building High Performance Computing platform, design and implement a automation script. Compared with traditional High Performance Computing platform, it realizes customization of computing resources elastic lowers the cost, increases resource utilization rate, and have great flexibility.

Key words: high performance computing; Amazon EC2; LSF; PAC

随着信息技术的高速发展,高性能计算(High Performance Computing,)作为计算技术的一个分支得到了广泛的关注和快速发展。高性能计算系统的主流体系结构分三种:共享内存(SM,Shared Memory)、连贯缓冲非统一内存寻址(CC-NUMA, Cache-Coherent Non Uniform Memory Access)和集群(Cluster)。目前对HPC影响最大的是集群,集群是高性能计算平台使用最广泛的一种体系结构构。集群是这样一种技术,它由多台计算机通过集群管理软件联系起来,使多台计算机能像一台计算机那样工作或看起来想一台计算机。本文提出高性能计算平台的解决方案,利用Amazon弹性计算云(Elastic Compute Cloud, EC2)平台,结合Platform Computing 公司的核心集群调度管理中间件LSF(Load Sharing Facility)与PAC(Platform Application Center),使得高性能计算在云上得以实现。

1 LSF集群管理调度中间件与PAC

Platform LSF 是一个企业级的跨平台的集群管理中间件,LSF使负载平衡,分配资源,同时提供对资源的访问。LSF提供了一个资源管理框架,接受作业请求,将作业分发到最合适的资源上运行,监视作业的运行情况[1]。LSF集群一般由一个LSF 主机(Master host)、若干LSF备用主机(Candidates)和许多LSF从机(Slave host)组成,从机的集合也称为资源(Resource)。LSF主机维持着若干个作业队列,并与LSF的从机间歇性的通信,以得到从机的信息。LSF的备用主机是在主机出现故障以后替代主机的。当向集群提交一个作业时,LSF主机先把作业放到对应的队列中,然后按照一定的均衡调度策略,将作业分发到理想的从机上去执行,并跟踪作业的运行。从机会把作业的运行信息和结果传回给主机。

PAC (Platform Application Center) 是运行在LSF基础之上的Web 图形化用户接口,它可以对集群进行简单的配置、监控和管理,最大的特点是,它对一些常用的应用程序进行了封装,形成了应用程序模板,用户可以在图形化的界面提交应用程序作业,如果模板不能满足用户需求,用户只要熟悉html就可以修改或自定义模板。PAC友好的图形化用户界面让用户可以不必关注底层LSF,可以透明地使用集群。

2 Amazon弹性计算云EC2

亚马逊弹性计算云服务(Elastic Compute Cloud, EC2)是亚马逊提供的云计算环境的基本平台。网络数据流的流向非常复杂,企业和个人的网络平台所需的计算能力也随着这些流量增加在不断的变化着。利用亚马逊提供的各种应用接口,用户可以按照自己的需求随时创建、增加或实例[3]。这样用户就可以按照自己的需要的计算能力来付费,消除了购买大量昂贵硬件设施的花费。EC2的基本架构如图1。

图中AMI(Amazon Machine Image,亚马逊机器映像)是一个将操作系统、应用服务和应用程序打包的模板。Instance是由AMI创建的,它运行的是AMI的一个副本,可以使用一个AMI创建多个具有相同属性的Instance。亚马逊免费提供的丰富的AMI,可以在这些AMI的基础上构建我们的AMI,然后用它创建我们需要Instance。Instance有多个类型,它们因处理能力,内存,存储和IO性能等不同而有不同的资费。而每个Instance有两个IP地址:共有IP与私有IP,Instance通过私有IP互相通信,用户通过共有IP远程登录到Instance。EC2采用密钥对(Key Pair)和安全组(Security Group)作为安全容错机制。此外,EC2还提供了丰富的API,利用这些API函数,可以基于EC2开发应用程序[2]。

3 方案详细设计

方案的设计包括两个部分,第一部分是创建AMI,第二部分是搭建高性能计算平台。

3.1 创建AMI

1)生成并访问Instance

选择亚马逊提供的AMI,这里使用搭载CenOS5.5操作系统的AMI来创建Instance。这个过程非常的简单,只要是按照亚马逊的Web Service 页面上的提示一步一步进行操作,需要注意的是密钥对(Key Pair)和安全组(Security Group),需要创建并下载这个密钥对和使用缺省的安全组。这样就可以通过SSH(Secure Shell)和密钥对远程访问Instance。

2)创建文件与上传LSF和PAC安装包

登录成功后,首先在/root目录下创建userdata文件,这个文件用来保存搭建平台时用户输入的一些参数,接下来就上传LSF和PAC的安装包。

3)自动化脚本amisetup.sh设计与编写

自动化脚本是在生成Instance后自动运行的脚本,它读取用户在搭建平台时输入的一些参数(数据和参数将在下一节用户接口做详细的介绍),按照用户的参数的不同进行不同的处理。图2是amisetup.sh脚本运行的流程图:

4)生成新的AMI

上面的三步做好以后,就可以应用EC2的命令ec2-bundle-vol、ec2-upload-bundle和ec2-register分别进行打包、上传和注册新的AMI,亚马逊会产生一个AMI的ID,如ami-xxxxxxxx,以后就可以使用这个AMI来创建Instance。

3.2 搭建高性能计算平台

此方案提供了两种搭建高性能计算平台的接口:通过亚马逊web service 界面搭建高性能计算平台与通过我们设计的auto-launch 脚本创建HPC平台,下面详细介绍这两种接口。

1)通过web service 界面搭建高性能计算平台

由于在从机上安装LSF时需要指定主机的主机名,所以通过web service 界面搭建高性能计算平台时需要二次创建过程,第一次即使创建LSF主机,第二次创建LSF备用主机和从机。过程如下:

A. 登录Amazon web service 界面/console/

B. 点击launch instance,选择要使用的AMI,设置Number of Instances(虚拟机实例的数量)与Availability Zone(区域),在User Data中指明ExistingMasterInternalIP、rootInitialPasswd、lsfadminInitialPasswd和NumOfMasterCandidates,其中ExistingMasterInternalIP是主机的主机名,在第二次的创建中,通过指定这个参数,备用主机和从机可以加入到主机管理的集群中; rootInitialPasswd与lsfadminInitialPasswd是root用户和LSF管理员的初始密码设置;NumOfMasterCandidates是在第二次创建中备用主机的数量。

C. 创建ssh 的Key Pair并下载到本地,选择Security Group,最后选择创建实例。

D. 当这个Instance在页面上显示为running时,就可以通过主机公有IP:8080登录到PAC图形化用户界面,使用PAC提供的应用程序模板提交和运行作业。

2)通过auto-launch 脚本创建HPC平台

通过web service 界面搭建平台,图形化的用户接口方便了用户的操作,但是每次都要两次创建过程,显得有一点复杂。为此设计了一个auto-launch 命令行脚本,该脚本使用Python语言编写并调用了亚马逊EC2的API,在脚本运行时加进所需要的参数,就可以一次性的创建我们需要的高性能计算平台。脚本的执行流程如图3。

脚本的使用方法如下:

hpclaunch

-? --help打印帮助文档和使用方法

-i, --ami 创建Instance使用的AMI ID(必选参数)。

-t,--inst-type 指定EC2 Instance的类型,可以是以下几种类型:

'm1.large','m1.xlarge','m2.xlarge', 'm2.2xlarge','m2.4xlarge',和'c1.xlarge'默认选择的是'm1.large'

-n,--num Instance的数目,缺省值1.

-m, --max 在Instance中主机和备用

主机的数目,缺省为1,表示只有一个主机,没有备用主机。

-k,--keypair 指定密钥对(key pair)(必选参数)。

-g,--group,[, ...]. 指定Instance运行的安全组(security group),缺省值为默认安全组。

-a, --accesskey 亚马逊的注册账号(必选参数)

-s,--secrte-accesskey亚马逊的注册账号的密码(必选参数)

-z, --zone Instance运行的地理区域(必选参数)

-p, --keypair-path 密钥对的路径(必选参数)

--root-passwd 指定instance的root用户密码,缺省条件下,将使用随机密码

--lsfadmin-passwd 指定instance的LSF管理员(lsfadmin)密码(必选参数),用户将用这个账号和密码登陆PAC图形化用户界面。

--log-level

登录日志的级别,包括DEBUG, ERROR, FATAL,INFO,NOTSET, WARN, WARNING,缺省条件下是INFO。

例如:我们在命令行键入:

$ hpclaunch --ami AMI-ID --num 10 --max 2 --keypair EC2-KEYPAIR --lsfadmin-passwd 12345 --root-passwd 12345 --keypair-path

~/EC2-KEYPAIR-FILE --zone US-EAST-1A

将会在EC2上创建10个m1.large型的机器,一个为LSF主机,一个为LSF备用主机,其余8个为LSF从机。搭建成功后会显示如下信息:

Installation succeeded:

There are total [10] instances have been launched, 8 compute nodes Master host: Master host IP: 50.16.46.220

You can access PAC WEB via URL:

:8080

使用浏览器打开最后一行的URL进入PAC的登录界面,登录成功后,就可以运行应用程序任务。

4 结束语

在共有云上搭建高性能计算平台,与传统的搭建在服务器机房上的高性能平台相比,最大的优点可以根据需要动态扩展,缩小集群,在不使用的时候,可以删除集群,这大大降低了成本,提高了资源的利用率。对于有短时间有较大计算量需求的个人、学校、小型实验室和中小企业具有很高的参考价值。

参考文献:

[1] Platform Computing.Platform LSF Foundations[Z].2011.

高性能计算范文第4篇

关键词:高性能计算中心;仿真计算;计算性能;网络架构

中图分类号:TP393 文献标识码:A 文章编号:1007—9599 (2012) 14—0000—02

一、引言

在进行高速列车强度、流体力学、空气动力学等仿真领域的仿真分析时,仿真分析的几何模型规模庞大,网格数量众多,需要消耗大量计算机硬件资源,往往需要在高性能计算中心完成仿真计算。选择适合于仿真计算的高性能计算中心,可以缩短仿真周期,提高仿真精度,保证仿真数据的安全,对企业仿真能力的提升起到至关重要的作用。

二、高性能计算中心的需求分析

仿真分析由于牵扯到网格划分及模型处理,对硬件设备的性能要求较高,要求计算中心应可以进行多种学科的高性能仿真计算,可以进行大几何模型的网格划分,能在较短时间内较大规模的仿真分析计算。

建成后的高性能计算中心应不仅能够满足目前业务的需要,还能适应未来技术发展的趋势和需要。应具有统一高效的资源管理系统,对所有计算节点资源进行统一监控与管理,以集中统一的管理方式,高效率、反应灵敏的技术服务机制,标准化、自动化的管理流程达到提供优质的资源管理服务。高性能计算中心应尽量占用少的机房空间,提高机房的空间使用效率,保证在有限的空间内发挥最大的计算性能。仿真数据涉及企业的核心技术,是企业重要的技术资源,计算中心的选型须全面考虑数据的安全问题,确保数据的保密性,完整性,可靠性。

三、主流高性能计算中心的分析对比

(一)小型机与刀片集群的比较

小型机具有高运算能力、高可靠性、高服务性、高可用性等四大特点,延续了大型机、中型机的高标准设计技术,采用高稳定性的UNIX操作系统,一般含有8—64个CPU,具有32G—256G甚至更高的海量内存容量,并设计有专用高速I/O通道,电源系统、I/O系统、散热系统皆设有冗余。

刀片集群是将多个刀片服务器连接而成,具有非常好的扩展性,通过增加刀片服务器即可实现CPU数量、内存容量的扩展。刀片集群占用空间小,对于机房空间紧张或者托管服务器的企业来说节约了大量的空间成本;刀片服务器采用集中管理的方式,简化了服务器的管理,可有效降低维护成本。

对于小型机和刀片集群在仿真领域的应用,小型机主要用来解决硬件要求较高的单个仿真任务,不擅长多个仿真任务同时运行;刀片服务器配合作业调度软件,可以轻易实现多个仿真任务同时运行,但对于单个仿真任务的求解性能要低于小型机。

(二)主流CPU的比较

小型机的CPU架构不同于传统PC服务器的x86架构,各小型机生产厂商都具有自己独特地CPU,主要有IBM的PowerPC处理器,SUN公司和TI公司合作开发的SPARC处理器,HP公司的PA—RISC处理器,MIPS公司的MIPS处理器,Compaq公司的Alpha处理器。

刀片集群的CPU采用的是PC服务器主流的x86架构,主要CPU生产厂商为Intel和AMD。Intel针对刀片集群推出了高端CPU至强系列,最新系列产品为E5系列和E7系列,单颗CPU最高可至10核,高性能计算领域推荐使用的型号为E5的2600系列和5000的5600系列。AMD针对刀片集群推出了高端CPU皓龙系列,其中皓龙6200系列更是具有强大的处理性能,有些产品单颗CPU甚至达到了16核。虽然AMD已经推出了高端CPU,但相比Intel的高端CPU,由于AMD的CPU架构不如Intel,运算效率相比Intel要差一些,因此IBM、HP、浪潮等刀片集群服务商几乎全部使用的Intel处理器。

(三)网络架构的比较

高性能计算中心按功能分一般由3类网络组成:管理网络、计算网络、存储网络。管理网络普遍采用千兆以太网,将管理节点、计算节点、I/O节点连接成1个整体,由管理节点对整个高性能计算中心进行管理。计算网络采用以太网或infiniband网:由以太网构成的计算网络传输速率低,但价格优势明显,因此受到一些中小企业的青睐;由infiniband网构成的计算网络具有非常高的传输速率,网络延迟低,是最常用的高性能计算网络。存储网络一般有光纤网和以太网两种类型,具体选型由存储的类型决定,高性能计算中心连接的存储一般为SAN存储(Storage Area Network),通常情况下使用光纤进行I/O节点和存储的互联以便更好发挥存储性能。

四、高性能计算中心实现方案

(一)整体系统架构

1.使用一箱刀片服务器作为计算节点,根据刀片机箱型号配置12—16个计算节点,每个计算节点配置40G InfiniBand卡,刀片机箱配置一个30口InfiniBand 交换机,对内14个接口,对外16个接口。

2.使用两台机架式服务器作为I/O节点,I/O节点和计算节点之间通过InfiniBand网络连接,确保计算节点可以高速访问存储。同时I/O节点采用GPFS并行文件系统,一方面确保数据快速输入,另一方面避免单点故障,两个I/O节点通过光纤存储卡连接光纤存储。

3.使用一台机架式服务器作为管理节点,承担用户登录、程序调试、作业管理及刀片集群管理等工作。管理节点通过千兆以太网与公司现有网络相连,用户通过公司的千兆以太网访问计算集群。

4.刀片机箱、I/O节点、管理节点用过千兆以太网交换机连接在一起,对高性能计算集群的访问和管理均通过以太网来进行;刀片机箱、管理节点组成的infiniband网络用来完成仿真计算的数据交互;I/O节点、光纤存储组成的光纤网络用来完成刀片集群与光纤存储的数据交互。

(二)软件选择

1.操作系统

刀片服务器采用Linux redhat操作系统;

I/O节点和管理节点采用window2003/2008操作系统。

2.集群系统管理软件

选用集群配套的管理软件,允许通过一个单点控制和管理整个集群系统,可以实现集群的组成,管理和控制。通过集群系统管理软件可以完成节点软件远程安装和更新、集群内所有节点运行状态的持续监控、节点故障侦测和自动响应、文件的单点修改和分发或同步、节点上电/关机/重启动等功能。

3.共享文件系统

GPFS 是一个并行的磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统;而且针对此文件系统的服务操作,可以同时安全地在使用此文件系统的多个节点上实现。由于数据全部存储在光纤存储中,GPFS允许各个节点共享存储中的数据文件,保证了各个节点数据的一致性,也保证了节点出现故障后数据依然完整。

五、结束语

在科学技术飞速发展的今天,仿真分析与高性能计算的结合变得越来越紧密,借助高能性计算中心的强大处理能力,众多原本被认为无法完成的仿真计算逐渐成为可能。随着高性能计算相关技术的发展,高性能计算中心的实现方式逐渐呈现多样化复杂化的趋势,只有针对特定的仿真学科,选择合适的高性能计算中心配置,采用合理的网络架构,才能使高性能计算中心发挥出最佳性能。

参考文献:

[1]徐明强.微软高性能计算服务器[M].北京:人民邮电出版社,2010

[2]顾冠群,陶军,吴家皋.高新能计算机网络研究进展[M].南京:东南大学出版社,2006

[3]陈国良,吴俊敏,章锋,等.并行计算体系结构[M].徐炯,译.北京:高等教育出版社,2002

高性能计算范文第5篇

【关键词】高性能计算;应用;需求;发展

中图分类号: G623.58 文献标识码: A 文章编号:

一、前言

高性能计算的应用为国内的科技发展做出了诸多的贡献,因此,国内也在致力于拓展高性能计算的应用范围,从而希望进一步的促进高性能计算的发展,为我国的科学技术的不断发展提供技术支持。

二、高性能计算概述

高性能计算(HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计 算资源操作)的计算系统和环境。有许多类型的HPC 系统,其范围从标准计算机的大型集群,到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连,比如那些来自 InfiniBand 或 Myrinet 的网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑,在性能很高的环境中,网状网络系统在主机之间提供较短的潜伏期,所以可改善总体网络性能和传输速率。

三、中国高性能计算的现状与发展

20 世纪 90 年代以来,随着"神威"、"银河"、"曙光"、"深腾"等一批知名产品的出现,我国成为继美国、日本之后的第三个具备高性能计算机系统研制能力的国家,被誉为世界未来高性能计算市场的"第三股力量"。我国在高性能计算机研制方面取得了较好的成绩,掌握了研制高性能计算机的一些关键技术,参与研制的单位也由科研院发展到企业界,有力地推动了高性能计算的发展。目前,我国的高性能计算环境已得到重大改善,总计算能力与发达国家的差距逐步缩小。我国的高性能计算技术拓宽了我国科学技术研究的深度和广度,提高了我国工业的生产效率,同时也节约了很多生产成本。我国的高性能计算技术目前主要在石油行业、天气预报、核能模拟、生物工程等领域得到了广泛的应用。

但是中国高性能计算的应用还不够广、不够深入,应用水平和应用效率都比较低下。我国对高性能计算应用的投入还远远不够,应用研发力量薄弱且分散,缺乏跨学科的综合型人才,从事高端应用软件研发的单位很少,企业界基本未介入,没有良好的相互交流的组织渠道等。高性能应用软件的开发和高效并行算法研究尚不能与高端计算机发展同步,在一定程度上存在为计算机"配"软件的思想。我国高性能计算应用的研究与发明明显滞后于高性能计算机的发展。国外品牌还占领着很多关乎国计民生的关键领域和行业,国产高性能服务器的市场份额仍然偏低。

四、高性能计算应用需求

为满足国民经济发展的需求,高性能计算的需求正在迅速增长。尤其是在基础科学领域,对计算的需求永无止境,而且性能越高的计算机越能产生高精度高时效的成果。目前,深腾6800一直处于满负荷运行状态,折射出下一步高性能计算环境建设的更大需求和更高目标。2004年开始,超级计算中心结合中科院“1+10”创新基地和重点学科的部署,重点对过程工程、空间科学、计算化学、药物设计、材料科学、地球科学、环境科学、生物信息、流体力学、高能物理等11个应用领域开展了多次“十一五”高性能计算应用需求调研,下面分别从研究方向需求、计算需求、应用软件需求和可视化需求方面对调研结果进行具体分析。

1研究方向需求

“十一五”期间各领域用户都对高性能计算提出了需求,例如化学工程中复杂系统的结构研究、空间环境灾害性天气变化规律的研究、有机发光材料的研究、禽流感、艾滋病等重要病毒及重要疾病的药物筛选、纳米电子器件的研究、地幔对流的数值模拟、大规模地震波的数值模拟、癌症样品相关基因的测序及突变分析等。这些项目的主要来源为国家自然科学基金、“八六三”计划、“九七三”计划及科学院项目。

2计算需求

计算需求调研包括用户对内存大小、存储大小和CPU机时的需求。为统一表述用户的计算需求,我们以深腾6800为参照对每个用户的计算需求换算为每年所需CPU机时数,并进一步转换为计算性能(Tflops)来表示。此外,还对用户单个大作业对高性能计算机计算能力的需求进行了调研。

根据目前的数据统计,所有应用领域计算机时需求每年约为3.3亿CPU小时,换算成计算性能约为198。6Tflops,用户单次计算对计算能力的最大需求为67。6Tflops。目前,用户的计算需求已远远超过现在超级计算中心能提供的计算能力,很多大型应用都要求超级计算中心提供服务。

3应用软件需求

科学计算方面的软件很多,超算中心在深腾6800上购置和配备了大量的应用软件。如Intel的C、Fortran编译器、Totalview,VTUNE调试工具、LAPACK,MKL等各种数学函数库,还有化学计算软件Gaussian03、密度泛函计算软件ADF2004及非线性动力分析有限元程序ANSYS LS-DYNA等。“十一五”期间各领域用户除了对计算提出需求外,对计算过程中所需要的应用软件也提出了各自的需求,超级计算中心将根据用户的具体需求,挑选、购买并安装用户需求多的商用和开源应用软件。

五、高性能计算应用发展展望

高性能计算的最终目标是应用。为了更好地完成预定的大规模科学计算任务,不仅要有好的高性能计算机,还要有与之相匹配的高质量的高性能应用。但是,目前我国高性能计算机的实用效率还停留在较低的水平,应用水平低成为高性能计算的薄弱环节。我国的高性能计算事业要走可持续均衡发展的道路,如何使当前的建设成果充分发挥其效益并可持续发展,改善应用水平较低的现状,是我们必须思考的问题。我国对加强高性能计算环境和超级计算中心建设一直给予高度重视和大量投入,但是高性能计算环境建设不能盲目地以追求计算机峰值为目的,而是以应用需求为向导,以应用水平为依据,针对不同应用的计算特点,引进不同体系结构的计算机系统。

高性能计算机的问世给科学研究及工农业生产等带来了前所未有的发展,同时对用户使用计算机也提出了更高的要求。高性能计算机规模的不断扩大、多核处理器的出现都加大了用户使用计算机的难度。针对拥有多处理器(核)的高性能计算机系统,开展操作系统多核版本的研究、多级并行编程模型、软件工具和编译器的开发、现有MPI,OpenMP编程模型的优化,并行算法的改进等工作,对提高应用软件在多核(≥16核/节点)、流计算(IBM Cell,GPU)等下一代计算机系统上的运行效率至关重要。并行应用的可扩展性也是百万亿次、千万亿次大规模计算机系统面临的一个很大的挑战。

六、高性能计算的作用和地位

高性能计算已被公认为继理论科学和实验科学之后,人类认识世界改造世界的第三大科学研究方法,是科技创新的重要手段。高性能计算相对于理论科学和实验科学,有其独特的优越性。首先,高性能计算既免除了真实实验的昂贵代价,而且不会对环境产生任何影响,即所谓无损伤研究。第二,高性能计算可以实现全过程全时空的研究,获取研究对象发展变化的全部信息。第三,高性能计算可以低成本地反复进行,获得各种条件下全面系统的数据。

事实证明,有了高性能计算不再需要进行核试验,有了高性能计算可以预测海啸和地震的危害,有了高性能计算可以通晓人类大脑的奥秘和生命的密码。在我国为满足国民经济发展的需要,高性能计算的需求正在迅速增长。无论是国家安全、石油气象等主要领域,还是以生物医药、微观结构研究为代表的新一代科技,都高度依赖高性能计算。

七、结束语

高性能计算的出现极大的提高了科技的创新能力,不论是在工业还是农业领域,高性能计算都可以发挥其科学计算的优势,很好的完成各项复杂的计算任务,从而为工农业的快速发展提供了技术保障。但是,对于高性能计算运用,我们还需要进一步的开拓。

参考文献

[1]戴建光,许军才.高性能计算在水工上的应用[J].科技广场. 2008(12)

[2]石云,陈蜀宇.论高性能计算与普适计算[J].六盘水师范高等专科学校学报. 2008(03)