当前位置:首页 期刊杂志

天河二号:世界第一超级计算机背后的故事

时间:2024-05-04

罗亮

自2013年6月起成为全球最快的超级计算机,天河二号的霸主位置就没有被动摇过。

2014年6月23日,国际TOP500组织公布全球超级计算机500强排行榜最新榜单,天河二号以比第二名美国“泰坦”快近一倍的速度连续第三次获得冠军。(注:榜单每半年公布一次)

连续三次获得全球超计算机冠军,让外界对于这台庞大的超级计算机产生了浓厚的兴趣。人们希望迫切了解这台超级计算机的研发和应用现状。

天河二号诞生

天河二号目前位于广州的超级计算中心,主机房面积在4000平方米以上。

天河二号是国家科技部“十二五”863重大项目立项研制的项目,国防科技大学牵头进行了研发工作。近300人的研发团队从2011年开始,历时两年多才研制完成。

在天河二号之前,国防科技大学的团队曾在2010年研制出了天河一号,并首次让中国超级计算机站到了世界冠军的领奖台上。

然而,仅仅过了不到8个月,日本一台名为“京”的超级计算机就将天河一号挤下冠军台。之后,美国研制的“红杉”、“泰坦”超级计算机也先后坐上世界第一的交椅,天河一号排名滑落至第8名。

实际上,当外界还称赞天河一号夺得世界第一时,天河二号的开发工作已经悄然展开。2013年6月,经过280多人长达2年多的潜心研发,天河二号正式研制成功,并很快夺回超级计算机冠军的宝座。至今,天河二号已经连续3次成为全球最快的超级计算机。

“上学的时候,最烦的和最骄傲的事情就是学校停电。”毕业于国防科技大学的穆童(化名)每每回忆起校园生活时都会这样说到,“学校里的那个‘庞然大物一旦全速运转,全校就会停电,无论你是在看电视、打电脑游戏,都需要接受这一事实,就连校长也不例外。”

穆童所指的庞然大物就是天河二号,一台运算能力惊人的超级计算机。穆童还清楚地记得,那两年里,为了保障天河二号的研发工作,该校的校党委还专门下发过通知,号召全校师生一起节约用电。

“在长沙30多度的夏天里,国防科技大学的校长、院长还有学生们要响应号召,关掉空调等大功率的电器,换上电风扇。”回忆这个场景时,穆童的脸上闪过一丝得意之情。

如今,国防科技大学的新生们再也体会不到这种“停电”带来的骄傲了,因为天河二号已经从长沙的国防科技大学搬迁到广州超级计算中心。而随着专线电源的提供,未来天河N号的研发可能再也不会让全校的师生们忍受长沙的酷暑了。

天河二号能够做什么

天河二号历时两年多研制完成,耗资上亿美元。如此巨额的投资,最终当然是为了服务国家经济建设,而非只是标榜国家在超级计算机领域的能力已经达到怎样的高度。

除了助力探月工程、载人航天等政府科研项目外,天河二号目前已经逐渐应用于民用领域,如石油勘探、汽车飞机的设计制造、基因测序等。

在“天河二号”一排排高大的黑色机柜里,一共装有32000颗主CPU和48000个协处理器,共300多万个计算核心。拥有如此多的计算核心让它的运算速度也非常惊人。

据测算,天河二号的峰值计算速度达到每秒5.49亿亿次,而持续计算时的速度每秒可达3.39亿亿次。假设每人每秒钟进行一次运算,“天河二号”运算一小时,相当于13亿人同时用计算器算上1000年。

据专家介绍,传统手段研发新车,一般要经过上百次碰撞实验、历时两年多才能完成,而利用天河二号进行模拟,只需3-5次实车碰撞、两个月即可实现。

此外,天河二号还可应用于娱乐产业,现在通过超级计算机制作动漫和3D电影已经成为潮流。电影《阿凡达》动漫渲染制作耗时一年多完成。如果用天河二号,仅用1个月就可制作出与《阿凡达》动漫渲染效果相当的影片。

中国商用飞机设计有限公司北京研究中心利用约2.4万CPU核开展了大型民机全参数气动优化设计,在天河二号计算6天,完成了其自身计算平台约需2年的工作量,极大地提高了优化工作效率。

华大基因互联网支撑与发展中心负责人说,天河二号具有强大的计算能力,以500人规模的全基因组信息关联性分析为例,华大基因利用原有计算机需1年时间,利用天河二号只需3个小时。华大基因是天河一号和天河二号的大商业客户。

据该负责人表示,华大基因使用的生物信息软件能迅速在天河二号上运行,不需要再另外进行编程;同时天河二号强大的计算能力,可以快速满足华大基因海量基因数据分析所需的计算资源,节省大量分析时间。

截至目前,国家超算广州中心的天河二号在短短几个月的运行中为120多家用户提供了300多项典型应用计算。

更为重要的是,天河二号这样的技术实际上可以进行复制。据天河二号主任设计师卢宇彤透露,天河一号和天河二号的技术可以用在规模小一点、用户可以定制的“小天河”超级计算机上。“2010年,天河一号研制成功以后,实际上到2012年,‘小天河这样的系统已经推广了11套。”

早在2013年9月,天河二号刚刚第一次拿下“全球最快超级计算机”的名号时,新浪科技曾采访过卢宇彤,只是当时外界对于天河二号的关注度远没有今天高。

能耗难题:年耗电上亿元

从目前天河二号来看,计算节点的能耗约为18兆瓦,再加上散热系统的整体能耗在20兆瓦以上。如果正常运行,天河二号每年的电费就会超过1亿元,年耗电量约为2亿度。

对于外界对天河二号的耗电量高的质疑,中科院计算所计算机体系结构国家重点实验室研究员张云泉表示,虽然目前天河二号的能耗绝对值很高,但是外界应该看到它的性能也高。

张云泉的意思是说,外界也应该注意到这一点:天河二号在单位耗能内实现的计算速度更快。

目前天河二号的运算能耗比约为1.90千万亿次/秒兆瓦,落后于计算能力排名第二、第三的“泰坦”和“红杉”,但是远高于排名第四位的日本“京”的0.83千万亿次/秒兆瓦,也高于排名第五的“米拉”的0.92千万亿次/秒兆瓦。endprint

“泰坦”和“红杉”的运算能耗比分别是1.95千万亿次/秒兆瓦和2.17千万亿次/秒兆瓦,运算能耗比略高于天河二号。

现如今,天河二号作为世界排名第一的超级计算机,其理论峰值性能超过了5亿亿次/秒,但是距离未来将要实现的100亿亿次/秒目标依然有着不小的差距。

目前天河二号拥有1万多个计算节点,未来计划将节点数量增加到3万甚至5万个。但随着节点数量的提升,在管理和能耗方面的问题也将彻底凸显出来。

“如果按现在的趋势这样增加下去,100亿亿次/秒的超算系统功耗将达到400兆瓦,肯定是无法接受的。”张云泉告诉新浪科技,国际上公认的100亿亿次/秒的超算标准是,功耗必须控制在20兆瓦内。

“实际上,这就要求未来的超算系统能够进行体系结构,硬件、软件和制冷等多方面的创新。” 张云泉说。

超算的难题:应用软件缺失

计算能力的不断提高是一个重要的课题,但将超级计算机应用起来显然意义更大。

中国已经连续四届拿下超级计算机的桂冠,但根据国际TOP500组织今年6月公布的最新全球超级计算机500强排行榜,美国仍然是拥有超级计算机最多的国家,在500强名单中占据233席。中国有76个超级计算机进入最新的500强榜单,位居世界第二。第三位至第六位,分别是日本、英国、法国和德国。

目前,我国国家级超算中心主要有天津中心、济南中心、长沙中心、深圳中心以及广州超算中心。这些超算中心承担了超算推广与应用的任务。

据行业人士介绍,按运行时间看,国内超算中心的资源利用率普遍都在70%以上,有的甚至超过80%。相比之下,国外超算中心的利用率普遍在60%左右。不过,受限于软件开发和应用支持,国内超级计算机运行时的资源利用率低下。

上海超算中心主任奚自立在2012年接受新浪科技采访时曾表示,上海超算中心拥有200万亿次计算能力,但是只有20%-30%运算任务能够扩展到10万亿次,有20%-30%的计算任务能够利用的计算力低于2万亿次。很多计算资源由于应用的问题实际上用不到,造成一定的浪费。

对于应用落后的问题,国家863计划“高性能计算机及其核心软件”重大专项总体组组长钱德沛教授曾指出,这主要有三个原因:第一,中国开展超级计算机业务的时间还很短;第二,超级计算人才缺乏;第三,中国软件发展体制存在问题,由于盗版等因素没人愿意进行大型应用开发。

据他当时透露,“十一五”期间国家在超级计算机项目上投资了9.4亿元,但是真正用于应用开发的费用还不到1亿元。“应用瓶颈是一个过程问题,未来这个问题还会长期存在。”

浪潮集团高性能服务器产品部总经理刘军认为,国内超级计算机发展速度超过应用和人才方面的成长速度,导致超级计算机硬件与应用软件之间出现了很大的鸿沟。而正是这种鸿沟的存在,让国内企业和机构更加有紧迫感去培养人才和开发超级计算机的应用。?

(本文转自新浪科技)endprint

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!