LCG计算网格项目

LCG计算网格(LHC Computing Grid)是专为处理欧洲粒子物理研究中心(CERN)建造的大型强子对撞机(LHC:Large Hadron Collider)所产生的数据而建立的计算网格项目。

由超过140个分布于世界各地计算机中心组成的LCG,将数据中心的计算和存储资源整合在一起,LCG所建立的基础设施对LHC每年预计产生的1500万GB的海量数据提供存储、分析和计算支持。

参与在LCG各个节点中的计算机,运行在CERN定制的Scientific Linux CERN 4(SLC4)操作系统之上。在CERN的资源页面中给出了所使用Linux发行版的介绍和下载链接。下一个版本的Scientific Linux CERN 5也处于测试中,将来可能会实际应用在LCG的节点之上。

监控与可视化工具GridView为LCG网格提供了高层次的功能监控视图,以可视化报表显示数据的传输状态、FTS文件传输、作业运行情况以及服务可用信息等内容。

除此之外,LCG之上还使用BONIC平台搭建了LHC@Home志愿式分布式计算,目的是吸引爱好者参加到LCG的数据处理之中。项目将计算任务分割,之后将任务包发送给个体的参与者进行计算。计算结果汇总到LCG之后,可以帮助CERN来获取粒子穿越27公里长隧道之后的模拟状态,用以调整实际加速时参数的精度。

尽管LHC在去年9月份由于冷却超导磁铁的液态氦发生洩漏而停止运转,将推迟今年夏天才恢复运作。但LCG的数据处理和计算工作并没有停滞,相信LHC恢复运行之后,LCG网格将会为这个最大的科学工程在数据分析处理方面提供更强有力的支持。

延伸阅读:LHC网格-为地球上最大的科学设施存储和分析数据(InfoQ)

Grid Engine网格引擎

Grid Engine是Sun发起的网格计算项目,为从集群到网格的计算环境提供了分布式的资源管理平台,以实现分布式网格计算的基础设施。在Grid Engine之中,已实现的特性包含在多个Grid Engine结点之间共享资源、根据用户所需请求和保存网格资源,同时Grid Engine具备良好的拓展性,以及强大的统计和报告控制台等功能。

在最新版的Sun Grid Engine 6.2中,保持工作负载透明的同时集成了服务域的动态管理功能,并且提高了可伸缩性、性能和易管理型的标准。支持服务域管理器的多重群集,并且,Grid Engine的伸缩性已经可以支持多达六万个核心CPU的同时工作,支持跨数千CPU内核的海量并行作业,可以帮助用户在其上搭建强大的云计算平台。

Sun Grid Engine目前已在生产环境中得到了应用,如过程模拟,模型预测等等。在一年一度的超级计算大会上,Sun还展示了Grid Engine计算的应用实例。目前已对外提供CPU计算服务的网格计算门户站点Network.com,其后台就是基于Grid Engine搭建。

感兴趣Grid Engine的朋友可以下载6.2版本的快速上手指南,其中包含Grid Engine的介绍和基本概念,Grid Engine的资源调度策略、计算环境和集群的搭建、Grid Engine的推荐配置等等。

除此之外,Sun的HPC Cluster Tools也为在高性能计算集群之上创建MPI应用提供了支持,并且通过VampirTrace和MPI PERUSE实现了并行计算的性能分析和优化工具,同时还提供了Grid Engine的插件支持。在Grid Engine以及OpenStorage在线存储机制等解决方案的支持下,构建自己的云计算平台正在变得触手可及。

Globus 4.0.6 on Ubuntu

Globus项目发布了最新的4.0.6版本,在安全性、数据管理、处理过程执行方面有了不少改进。最近决定在Ubuntu 7.10平台上安装Globus 4.0.6,过程比预计的要顺利一些。Globus安装的流程和步骤,基本按照QuickStart教程中进行,还有一份不错的排错指南也帮了不少忙。

由于通过源代码Build来进行安装的方式出错可能性较大,于是直接使用了Debian Sarge的安装包。值得注意的是,在安装过程中,需要启用Ubuntu的root用户,这样方便使用Globus的CA安全认证机制对用户提交的pem请求进行签名。还有,最好把Globus_Location写到环境变量里面,这样不用在每次启动命令行时用export命令导入。

在启动Globus Container之前,需要使得用户通过Globus的CA安全签名,否则会提示认证错误。容器的启动,也没有使用指南中的shell脚本,而直接通过Globus目录中的globus-strat-container命令启动,之后得到在Globus默认的8443端口启动的WSRF服务实例。

下面的实验还要慢慢做,初步的设想是:将写好的空间分析算法以WPS服务的形式从Tomcat迁移到Globus Container中发布,供基于uDig项目具备WPS插件的客户端调用。使用OGSA-DAI将异构数据源提供的矢量数据集成,在GeoServer中以WFS的方式发布,最好GeoServer也迁移到Globus Container中。uDig客户端加载WFS源数据,之后再调用网格容器中的WPS操作进行数据处理。

顺便提一下,OGC刚刚正式通过WPS成为Web处理服务的标准之一,脱离了之前Proposal的状态,看来符合WPS标准的服务处理以后应该会有不错的发展。

再见,developerWorks网格专区

IBM developerWorks的网格专区,是我很喜欢并一直关注的板块,但不幸的是,今天IBM developerWorks的编辑团队宣布了专区即将关闭的消息

非常感谢您一直以来对网格计算的关注,很高兴 developerWorks 可以为您提供关于网格计算方面最新信息。但是从现在起,网格计算专区今后将不再进行更新,因为我们决定关闭这个专区。

无疑,这个专区对关注网格计算的同学们很有帮助,尽管从国外翻译到中文有一个时间差,但是资料对网格方面的入门和及时详细了解技术资料还是很有帮助的。本来计划撰写一篇OGSA-DAI 3.0架构与应用方面的文章投稿给DW,现在看来也可以省了。

网格计算相关的技术一直以稳健的步伐向前发展,但离实际的应用还有一定的距离,一些面向商业应用的网格产品如IceGrid等往往与Globus也没有直接的联系。而IBM产品所涉及的网格计算环境,侧重于计算负载功能、信息与计算功能结合、信息和数据模型,采用标准面向服务的方式来管理计算和信息网格中的对象。

尽管对于关闭developerWorks网格专区的决定有些遗憾,但IBM对于新兴技术,一直都采取积极开放的态度,比方说我关注的Mashup资源Ruby and Rails技术资源也在DW相继上线,为读者提供相关的技术资料。欣赏IBM DW一贯稳健专注的作风,为开发者提供各种技术最有价值的文章和教程,期望DW一直保持高品质的内容质量,为我们带来更多好的文章。

WSRT与有状态Web服务

网格服务的标准由WS-Resource Framework (WSRF) 过渡到了WS-ResourceTransfer (WS-RT) 框架,WSRT在WS-Transfer的基础之上,增加了WSRF标准与WS-Management标准的特性,以便在不同组件之间方便的交换资源信息。

网格为异构资源提供了在结构化的、受管的系统中进行通信和互操作的能力。在网格计算环境下,状态信息的保存十分重要。在Globus体系中,分布式异构计算环境的Grid Service在Web Service的基础上进行扩展,将状态信息加入到无状态的服务之中,并提供构建有状态Web服务的API。

HTTP协议本身是无状态的,即服务器通过HTTP无法得知客户机是否已经关闭等状态信息。如果需要在资源传输中保持HTTP连接状态,需要由客户端保存的Cookie或服务端保存的Session来为HTTP记录用户的状态信息,再次与服务器取得连接时,就可以读取存放于HTTP响应头中的用户状态信息。

同样,一般的Web服务是不需要包含资源状态信息的。Web服务中,消息传递、服务描述、工作流描述、服务发现与集成四个部分都以松散耦合方式连接,服务交互由序列化XML进行描述。服务客户端在根据WSDL描述提交参数之后,一次调用在服务端执行的处理并得到返回结果,即可完成服务执行的整个过程。然而,WSRF协议为Web服务提供了有状态资源的管理方式,而WSRT则在WS-Transfer的基础上,增加了WSRF的WS-ResourcePropertiesWS-ResourceLifetime两个组件的功能。

网格技术在分布、异构的资源基础上实现资源共享和协同工作,从OGSA到WSRF再到WSRT,Globus采用可以保存资源状态信息的Web服务标准一直处在不间断的进化之中,为网格技术的实现提供有效的支撑环境。