当前位置:首页 期刊杂志

中国HPC 百万亿次是这样炼成的

时间:2024-05-04

曙光5000A 打进全球超级计算机500强(Top 500)排行榜前十榜单,使得中国成为继美国之后,世界上第二个可以研发、生产百万亿次超级计算机的国家。

“百万亿次计算机到底是一个什么概念?用它计算一天,相当于用家用的PC计算33年。”上海超级计算机中心姚继锋博士这样解释曙光5000A。

在前不久公布的全球超级计算机500强排行榜中,装载了微软Windows HPC Server 2008操作系统的曙光5000A实现了百万亿次的突破,以峰值速度233.47万亿次、Linpack值180.6万亿次的成绩,跻身世界超级计算机级计算机前十名。

曙光5000A也是在美国之外的惟一进入前十名的超级计算机。由此,中国成为世界上第二个可以研发、生产百万亿次超级计算机的国家。

奇迹诞生于地下车库

2008年除了北京的奥运场馆外,中国科学院计算所地下车库是一个最令人兴奋和激动的地方。因为,中国史上最“牛”的计算机以及最“牛”的运算纪录就是诞生于这里。

2008年9月初,中国科学院计算所地下车库一片忙碌,这里正在紧锣密鼓地搭建一个数据中心。造价两亿元人民币的1920台服务器已从天津工厂运抵北京,由于机器太多、太沉,一楼的地面无法承受,机器们只能“屈尊”于这里。

整个数据中心的搭建非常神速,仅仅用了10天左右的时间。仅一个晚上,现场共计700条、总长达60公里的光纤居然全部部署完毕——原因很简单,曙光公司调动了可以调动的全部人员,包括秘书、财务等行政人员。

由于大规模的计算集群对于硬件的稳定性要求非常高,一台机器的一条内存出问题就会导致整个任务失败。因此整个过程中,来自曙光的工程师们一直轮流值班,并在现场准备了大量备份硬件,一旦发现问题就立刻上前更换。

这样夜以继日地工作,目标只有一个: 赶上11月在美国奥斯汀举办的第21届超级计算机大会,跻身到世界权威的Top 500超级计算机排名的前列。这份自信来源于最近的两次测试: 6月,在首台安装了Windows HPC Server 2008的服务器上进行的单节点测试中,运算效率达到了86%,为同期各类操作系统中最高; 7月,在32节点测试中,运算效率达到84%,几乎实现了节点数目-运算能力的线形扩展。

从9月1日开始搭建计算机,到10月28日完成最后测试结果,微软和曙光的工程师团队与这台重50吨的超级计算机“同吃、同住、同劳动”了七周半之久,多次在最后的期限前奇迹般地实现了既定目标。

9月28日,曙光5000A的浮点运算能力达到87.6 T; 9月29日,系统运算能力突破百T大关,达到116.3 T,得以赶在世界超级计算机大会的截止日期——10月1日之前顺利申报全球超级计算机的Top500; 10月9日,达到了140.3 T的新高; 10月13日凌晨两点左右,运算能力达到167.4 T,突破了此前曙光预计的160 T,“创造了中国高性能计算的历史”; 在经历了10月25日的174.9 T和10月26日的179.8 T之后,2008年10月28日,曙光5000A得到了它提交给世界超级计算机大会的最终结果——180.6 T。

要知道,这些成绩是在一个由地下车库改造成、占地达2000平方米、几乎完全不通风、环境噪音接近70分贝的数据中心中诞生的。曙光和微软的工程师们平均每天在这里工作14小时以上,在工作现场的机柜旁、停车场的角落里,不时可以看到悄然入睡的疲惫身影。

冒险者的双赢

曙光公司副总裁聂华坦承,选择跟微软合作,多少有一点冒险的成分。之前,曙光的超级计算机一向依托于Unix或Linux高性能操作系统环境。

从2007年选择微软WCCS 2003开始,曙光和微软在高性能计算机上开展合作。“当高性能计算做到一定境界的时候,曙光真正关心的是能否对整个高性能计算产业经济发挥作用,能否让高性能计算机使用得更普及。”聂华说,“而Windows操作系统显然会让用户感觉更亲切,调试更方便,界面更友好,这是合作的基础和前提。”

对微软而言,将初出茅庐Windows HPC Server 2008在这么大规模的计算集群上部署和应用,尚属首次。此前,微软HPC团队服务过的最大客户是美国国家超级计算应用中心(NCSA),当时构建的超级计算机由1200个双路四核的服务器节点构成。而此次曙光5000A由1920个四路四核的服务器节点构成,规模是作为高性能计算技术全球领先者的NCSA拥有的超级计算机的4倍,这对微软中国HPC团队来说,挑战非同寻常。

在9月29日取得116.3 TFlops的运算结果之后,工程师们在10多天的时间里一直无法取得任何新的突破,有人质疑,Windows HPC Server 2008真的是如此大规模计算集群的正确选择吗?这个时侯,顶住压力,不放弃成了惟一的选择。在总结了前段时间屡屡失败的教训后,终于在10月9日,工程师们将曙光5000A推向了140.3T的新高,并随后多次刷新了中国超级计算机运算纪录。

评论

技术全球化有利于自主创新

毫无疑问,曙光5000A超级计算机打进全球高性能计算机Top500前十名榜单,是中国自主创新的一个典范。

曙光5000A不仅在全球超级计算机500强的排行中取得亚洲第一、全球第十的骄人成绩,更是向世界表明: 中国已经成为继美国之外,第二个可以研发、生产百万亿次超级计算机的国家。

这一成绩背后值得关注的一点是,支撑5000A运行的是微软的高性能计算平台Windows HPC Server 2008,这也是它第一次在大规模的超级计算机上亮相。为了和曙光一起见证“中国高性能计算历史”,微软中国HPC团队动用了来自全球的骨干技术力量,可谓不惜血本。最终,曙光5000A使微软向全球表明了它在高性能计算领域中所潜藏的巨大能量和实力。

从这一角度来看,曙光5000A是技术创新全球化的一个重要案例。曙光恰好抓住了跨国公司微软向全球公司转变、研发力量东移所带来的创新机遇。事实上,在跨国公司研发全球化的趋势下,利用国际资源与产业结构调整来开拓自己的创新平台和创新产品,提高国家的创新能力正在成为科技界的共识。

技术全球化有利于自主创新。自主创新,从来就不是封闭创新。高科技发展的一个重要规律,就是在竞争中合作,既竞争又合作,这比关起门来搞竞争要强得多。

因此,我们呼吁业界总结经验、解放思想,反对闭关自守,克服迷信权威的思想,适应研发全球化和经济全球化的挑战。在跨国公司研发全球化的趋势下,充分利用国际科技和产业资源,明白自己真正需要什么资源,拓展哪方面能力,从而获取创新的主要收益。(文/毛江华)

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!