中美决战百亿亿次E级超算冠军,天河三号原型机国产系统+芯片曝光

“天河三号”采用了三种国产自主高性能计算和通信芯片,运算能力将比“天河一号”提高200倍,存储容量提高100倍!

 |  新智元
天河三号原型机

作者:闻菲

中国能在何时重新夺回超算Top 500第一?现在似乎有了答案。

据新华社消息,在国家超级计算天津中心,我国自主研发的新一代百亿亿次超级计算机——“天河三号”E级原型机完成研制部署,并顺利通过分项验收,该原型机系统采用了三种国产自主高性能计算和通信芯片。

在此基础上,“天河三号”超级计算机预计于2020年研制成功!

研究人员在研发天河三号原型机

这次天河三号项目团队完成了四项大事:

  1. 自主设计了三款芯片:“迈创”众核处理器(Matrix-2000+)、互连接口芯片、路由器芯片;

  2. 设计了四类结点(计算结点、I/O服务结点、I/O存储结点、服务结点)、十余种PCB电路板;

  3. 设计和实现了新型的计算处理、高速互连、并行存储、服务处理、监控诊断、基础架构等硬件分系统,

  4. 以及系统操作、并行开发、应用支撑和综合管理等软件分系统

“这一切都是为了全面实现超算系统的自主可控。”中山大学数据科学与计算机学院教授、国家超级计算广州中心主任卢宇彤告诉新智元,原型系统是主要验证核心关键技术的可行性,包括CPU、互连通信、存储架构、能效比等,并不追求峰值。所以,不和美国Summit系统比规模。

未来2-3年,打造出全自主的具有国际领先水平的新一代超级计算机

卢宇彤博士告诉新智元,天河三号原型机是国防科大设计和研发的,部署在天津超算中心,为未来E级天河三号大系统研发预先构建应用软件生态。

“天河三号原型机的性能是国家原型系统项目指标要求的每秒3-5P(1P=10亿亿次)。”卢宇彤说。

也正因如此,“天河三号原型机系统”占地面积小,能耗比超过10 GFlops/W,采用水风冷混合靶向式散热冷却技术,实现了可适应科学计算和数据处理多应用需求的柔性体系结构,突破了计算访存通信三方平衡的高性能计算结点技术,可支持10万结点规模的高速互连和光电混合高速信号传输技术,用户透明的高性能计算环境软件支撑等技术,在核心关键技术上实现了整体自主可控。

天河三号原型验证系统的关键技术突破和系统研制,也为天河三号E级整机系统提出了计算、访存、通信性能平衡的设计方案。

未来,天河三号E级超级计算机将对已经设计生产计算、互联通信核心芯片再进行全面升级,可支持EB级海量数据存储的层次式存储系统进一步完善,对适用高性能计算和高效大数据处理的柔性体系结构进一步优化,利用2-3年的时间,打造出全自主的具有国际领先水平的新一代天河三号E级超级计算机。

美国Summit重回超算Top 500榜首,但真正的较量在于下一代百亿亿次超级计算

今年7月,美国的超级计算机Summit超过神威·太湖之光,在最新的全球超级计算机Top 500榜单中,重新夺回了第一名的位置。

美国人终于长舒了一口气。

超算Top 500榜单每年发布两次。2013年6月,中国的天河二号首次夺得冠军,之后连续5次占据第一名的位置,直到2016年11月,神威·太湖之光横空出世,以理论峰值性能125 P夺得当年Top 500冠军,天河二号位居第二,这样的排名一直保持到2018年6月。

从美国人眼中看来,中国相当于连续5年霸占了Top 500冠亚军的位置。

几年前,美国部署了3台百P量级的超级计算机,分别是Summit、Sierra、Aurora,每秒运算速度可达100P到200P左右。除了保持美国超算科技领先,一个很大的原因,就是重新夺回Top 500第一的位置。

根据原定计划,美国预计在2018年年底推出第一台机器,以此重返Top 500榜首。

但美国终究还是无法容忍中国再继续霸占Top 500的冠军位置,于是将计划提前,在今年6月推出了Summit、Sierra两台机器。其中,Summit更是将峰值性能直接提升到200P,终于如愿夺回世界第一的宝座,而Sierra也以125P的理论峰值超越天河二号,位居第三。

但是,正如此前中科院计算机研究所并行软件实验室主任、国家超算济南中心主任张云泉指出的那样,这次美国虽然拿了第一,但Summit与中国的神威·太湖之光所釆用的体系架构相比,并没有本质的区别。

张云泉博士在文章里写道:“太湖之光的峰值是125P,美国的Summit是187P,没有量级上的性能差别。只是说由于Summit的投资力度大、研发时间晚,采用了新的工艺和技术,它的峰值比太湖之光高一些,但是其在架构和技术上并没有拉开差距。”

在张云泉和更多超算专家看来,真正的竞争,在于新一代百亿亿次(E级)计算机的研发。

如今,超算已经成为一个国家信息技术创新的核心驱动力量,是综合国力提升的强大支撑。新一代E级超级计算机的研制是国际上高端信息技术创新和竞争的前沿领域,美国、日本和欧盟均已提出E级超级计算机的研制计划,几乎都是在2021年左右完成。

我国的E级超级计算机的研制计划也早已提上日程。科技部原定计划是2020年推出中国的E级计算机,但由于技术限制和一些拖延,有可能会延后到2021年。

全球各国又重新开始重视超算,新一代E级计算的竞争赛点,就是2021年!

美国、中国、日本,到底哪个国家最先实现?

决战2021:中国分三条路探索E级计算机

2016年,国家科技部结合“十三五”发展规划,通过国家重点研发计划支持,开始分两期启动我国E级计算机研制计划。第一期主要为“E级计算机关键技术”研究,安排了三个E级机原型样机的研制,第二期则为研制E级计算机。

这三个E级原型机分别是天河三号E级原型机、神威E级原型机和曙光E级原型机。

实际上,今年8月初,神威E级原型机也将在国家超算济南中心落地,调试完毕后正式进入试运行阶段。神威E级计算机原型由中国国家并行计算机工程技术研究中心研制,造价6000万元,采用水冷技术,运行速度也在规定范围内的3~5P。

神威E级原型机正在超算济南中心安装

目前,神威E级计算机原型正在济南中心进行组装,预计8月初调试并课题验收完成,之后将正式进入试运行。曙光E级原型机也将于近期完成项目验收。

预计在今年8~9月,所有三台原型机都将完成最终验收。

目前,这三个E级原型机分布部署在中国六大超算中心:一是天河系列,部署在长沙、广州和天津三个中心;二是神威系列,部署在无锡和济南两地;三是曙光系列,部署在上海和深圳中心。

张云泉告诉新智元,从现在的趋势来看,未来中国三台E级超级计算机都会采用众核加速的体系结构,所不同的只是众核的架构,一种是异构众核,一种是主从众核,还有一种是多核处理器和众核加速器完全分离的柔性异构众核。

实际上,现在由于超算竞争异常激烈,很难从普通报道中得知有关E级原型机的规格指标。

不过,中国顶级的超级计算机研究人员、同时在中山大学和北航担任教授的钱德沛博士,在2017年11月举行的SC大会上做了报告《中国在百亿亿超级计算方面的努力:现状与前景》(China’s Effort on Exascale Computing: Current Status andPerspectives),其中提到了中国三台E级原型机的一些细节:

曙光E级原型机:

天河E级原型机:

天河E级原型机技术路线

天河E级原型机的技术指标是:

  • 灵活的架构可以满足不同的应用:

  • 新一代多核处理器,追求平衡计算和内存访问

  • 光电集成高速互连,大大提高了性能和能效

  • 基于新存储介质的容错能力

  • 精确散热,在制造成本与运营成本之间进行权衡

天河E级原型机内部连接

神威E级原型机:

神威E级计算机原型硬件系统

神威E级原型机计算节点

同时,新智元还是找到了钱德沛博士在2017年11月做的另一份报告《中国的HPC发展:简要回顾和前景》(China’s HPC development: a brief review and perspectives)。其中,比较详细地介绍了曙光、天河三号和神威三台E级原型机的信息。

我国三个E级计算机发展计划

按照天河的技术路线,未来的E级系统将采用自主的飞腾处理器、Matrix-3000加速器、新一代高速互联通信、麒麟操作系统等一系列自主创新技术。

神威E级系统则预计将重点放在国家海洋实验室的八大领域,提供海洋领域超算服务,包括海洋大数据、海洋气象预报、海洋地质研究、海洋药物、海洋安全、海洋食品等多个国家级任务。

曙光E级系统原型系统采用浸没式相变冷却方式,通过把计算部件浸没在液体中,通过液体气化蒸发带走部件工作产生的热量,PUE可以达到业内最低。

美国E级计算机计划:跳过原型机,直接上!

美国超算研究人员也正在奋起直追。

美国橡树岭国家实验室完成了超级计算机Summit的研制,该系统计算性能将达到200 P,超越了中国的神威太湖之光,重新夺回超算Top 500榜首。

美国橡树岭国家实验室的的超级计算机Summit,目前排名世界第一

其实,美国原本计划使用峰值180P的Aurora来争夺世界第一,但由于英特尔负责研制的新Xeon Phil加速器无法按期完成,无奈只好修改合同,直接去研发2021年完成的百亿亿次超级计算机A21。

根据计划,美国将有5台E级计算机,其中主要跟中日构成竞争的是前三台:

这张图属于美国原定计划,现在推出时间都往前提了

美国在今天ISC18上公布的E级计算及原型机的相关计划

  • A21:预计将于2021年在阿贡国家实验室研制成功,将由英特尔和Cray公司联合研制,预计将极大增强科学研究领域中的模拟能力,大到星系形成与演化研究,小到燃烧中气体湍流模拟等。

  • Frontier:于2021年到2022年交付给橡树岭国家实验室。

  • El Capitan:将在2023年左右交付给劳伦斯-利弗莫尔国家实验室(简称LLNL)。

目前尚不清楚Frontier与El Capitan系统将由哪些厂商负责交付。不过可以看到,美国的六家芯片大厂应该会两两结对,除去已经确定的英特尔与Cray合作开发A21系统,接下来的组合很可能是HPE加IBM以及AMD加英伟达——吻合CPU加GPU的配伍思路。

作为预计2021年问世的美国第一台E级机,今年2月,E级计算计划(Exascale Computing Project,ECP)第二届年会在诺克斯维尔召开,首次详细披露了下一代美国超级计算机A21的设计方案。

此前,美国能源部同时资助两台超级计算机Summit和Sierra的研发,作为未来E级系统研发的跳板,相当于中国的E级原型机。

这两台机器分别采取不同的方法来降低能耗:Summit的制造商IBM和英伟达专注于将CPU与GPU结合在一起,提高复杂视觉仿真等计算的速度和效率。另一方面,Aurora的制造商英特尔和Cray则致力于增加并行的CPU核数,并实现它们之间的快速互连,原计划是研制性能达到180P。

2015年,美国能源部预计Aurora将在今年完成,第一台美国E级超算系统将在2023年落地。随后中国宣布了“第十三个五年计划”,阐明了2020年底之前实现E级系统的目标。

于是,美国能源部决定跳过Aurora,直接开始研制性能是Aurora五倍的A21。虽然发布时间推迟到2021年,但由于A21是美国第一台E级超算系统,这意味着美国将比原计划提前两年实现E级目标。

有人认为跳过Aurora这个过渡的机器直接研制A21有点冒险,但也有人认为没有Aurora,美国也完全可以成功研发E级超算系统。

美国超算研发路线图

目前A21的架构细节仍然严格保密。据相关研究人员介绍,A21的架构与以往的机器完全不同。其架构设计将着重降低处理器之间的长距离数据传输的需求,从而降低系统能耗。新机器功耗大约为25至30兆瓦,仅仅是Summit的两倍左右。

日本的E级超算路:最早明确E级发展计划,芯片已经研发完成

日本其实是最早明确研发E级计算发展路线的国家。

2013年12月,日本文部科学省推出百亿亿次超级计算机研发项目,旨在保持日本在计算科学和技术领域的领先优势。新的百亿亿次超级计算机研发被文部科学省列为“旗舰2020计划”(Flagship 2020 Project),由日本理化学研究所(RIKEN)的计算科学研究机构(AICS)负责实施。

文部科学省2015年8月公布的2016年预算显示,该计划2016年获得了76亿日元的拨款,比前一年的39亿日元增加了近一倍。

日本的预定计划是,2018年完成E级机的制造并开始量产,2019年进行设置和调整,2020年投入运行。

不过,2016年9月,在美国奥斯汀举行的HPC用户论坛上,该项目负责人、RIKEN的石川裕表示,正式运行的时间可能会延后1~2年,但并未说明延后的原因。有报道称,可能是由于半导体设计问题导致的CMOS制造技术尚不成熟,或者是芯片开发的时间比预期要长。

在今年的ISC 2018上,石川裕介绍了日本E级计算机的研制进展。日本的目标是在2021年初,由富士通研制成功第一台E级计算机“后京”(Post-K),并部署在RIKEN,速度将是日本现有最快超级计算机“京”(K)的100倍。

石川裕介绍了日本E级计算机的研制进展

今年6月,富士通宣布已完成后京计算芯片原型研制并开始测试,作为首个基于ARMv8-A Scalable Vector Extension (SVE)架构的48核芯片,这款芯片也体现了日本半导体工艺的发展。

同时,后京的系统软件环境也已在部署中,按照日本政府规划的9大重点应用领域,部分目标应用亦已在进行调试优化。按照目前发布的进展,日本在2021年实现E级计算的道路上颇为顺利。

一位业内人士向新智元透露,以前日本研制超级计算机“京”的时候,好几年前就开始宣扬我们要怎么做怎么做,但到了E级机的“后京”,态度转了180°,基本不愿透露任何实质信息。

根据日本此前公开的资料显示,“后京”的研发秉持四项基本的设计方针:

  • 能解决实际的社会和科学问题;

  • 在能效方面具备国际竞争力;

  • 最大程度地利用前任“京”确立的技术、人才和应用;

  • 2020年以后也能针对半导体技术的发展实现有效的性能扩展。

基于这四项方针,“后京”的开发将通过系统与应用的协同设计(Co-design)进行,一是开发下一代超算系统“后京”,二是面向“后京”的使用开发相应的应用,以解决革命性新药开发、生命科学计算、灾害预测、气象预测、绿色能源系统实用、宇宙演化分析等9项重要的社会和科学问题。

“后京”的开发分为四个方面:架构开发、协同设计推进、系统软件开发、应用开发,AICS为此设立了4个专职研发团队。

E级超算:硬件先行还是软件拉动?

中国的超算为人诟病的一个很大原因,就是软硬发展的不平衡。硬件速度上去了,但相关的软件应用跟不上。

但是,这方面的问题也在得到解决。2016年11月,在美国盐湖城举行的2016年全球超级计算大会上,中国凭借“千万核可扩展大气动力学全隐式模拟”研究成果一举获得“戈登 贝尔”奖。该研究由“神威·太湖之光”提供运算支撑,可有效开展全球公里级气象预报,与国际主流的大气动力模式相比,计算速度提升近10倍,与2015年获得戈登 贝尔奖的项目相比,计算效率提升10倍以上。

这是我国超算应用团队首次获得有着“超算应用诺贝尔奖”美誉的戈登·贝尔奖,标志着我国科研人员正将超级计算的速度优势转化为应用优势。

随后在2017年,由清华大学、国家超级计算无锡中心、山东大学、南方科技大学、中国科技大学、国家并行计算机工程技术研究中心组成的联合团队,基于“神威·太湖之光”的强大计算能力,成功设计并实现了高可扩展性的非线性大地震模拟工具,充分发挥国产处理器在存储、计算、通信资源等方面的优势,可以实现高达18.9P的非线性地震模拟,是国际上首次实现如此大规模下的高分辨率、高频率、非线性塑性地震模拟,对未来的地震灾害救援演习、预防预测等研究具有重要的借鉴意义。“非线性大地震模拟”赢得了2017年戈登 贝尔奖。

天津超算中心也将依托天河三号超级计算机构建超级计算与云计算和大数据深度融合的高性能计算服务平台,将在长效高分辨率气候气象预报、大规模航空航天数值风洞、地震地质研究和油气能源勘探、脑科学与基因工程等生命科学研究等超大规模计算与模拟,以及涉及国计民生、信息安全的政务数据、医疗卫生、基因健康、智慧城市、交通、地理、海洋等的大数据分析处理领域发挥强大支撑和平台作用。

张云泉主任介绍,百亿亿次超级计算机的最大的问题就是功耗控制,需要在半导体工艺上有很大的突破,才有可能把功耗控制在30兆瓦左右。“如果说功耗控制没有发生革命性的降低,以现在的技术去搭建的话,它的功耗可能会达到一百兆瓦,就没法用了。电费也太贵,1年的电费相当于十亿人民币。所以,国际上的竞争就是看谁有本事在30兆瓦的功耗预算的前提下,能够造出百亿亿次超级计算机,这个是目前最大的挑战。”