{"ObjectType":101,"Sequence":4882,"PreHash":"EBC5A98EF2B8C9D9ECEA4E59760122A3","Content":"![cover_image](http://mmbiz.qpic.cn/mmbiz_jpg/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxMiagBcXHUvSNJMhzC4iazf1DKUzpa0NX2NQnqBjD31FCYrgq44XfKhtg/0?wx_fmt=jpeg)\r\n\r\n# 美国首台E级超算,赢在哪里输在哪里?\r\n\r\n[ 底线思维 ](javascript:void\\(0\\);)\r\n\r\n__ _ _ _ _\r\n\r\n以下文章来源于科工力量 ,作者余鹏鲲\r\n\r\n![](http://wx.qlogo.cn/mmhead/Q3auHgzwzM44StT6z3GLUVvyW1JabEHz4hzQJfFo8icTuoUTRnrhYgw/0)\r\n**科工力量** . 观察者网科技工业新闻小组官方账号\r\n\r\n**/** **/** **作者 |余鹏鲲** **前言**\r\n当地时间5月30日,世界超算两大学术会议之一的ISC在德国汉堡举行,并发布了超级计算机Top500\r\n榜单。登顶本次榜单的是美国橡树岭国家实验室研制的Frontier超级计算机,在LINPACK基准测试中,这台超级计算机的稳定运行速度可高达1.1EPlop/s(百亿亿每秒),理论速度高达1.68EPlop/s。\r\nFrontier的成绩在榜单中是鹤立鸡群的存在,以稳定速度计,比排名第二的日本超级计算机“富岳”整整快了2.49倍,理论速度更是快了3.14倍。事实上Frontier的稳定速度,相当于排名2-8名超算的性能之和。在性能有成倍提升的情况下,Frontier的功耗仅相当于“富岳”的71%。也就是说,Frontier不仅性能强大,还拥有非常出色的功耗表现。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxv2vnx8smpo0EUw7rQ1hOiasxaGP4mPre7tQYOwDsoIUuicrp9xWNF3Tg/640?wx_fmt=png)\r\n超算Top500 榜单1-6名\r\n相比日本、芬兰和美国在超算上的你追我赶,近年来的中国显得非常沉寂,曾经排名世界第一的超算神威·太湖之光不仅在排名上滑落到第6,性能也只有不到0.1EPlop/s,与Frontier相比存在数量级的差异。\r\n第一名超过第二名近2.5倍,第二名又比第三名快了将近3倍,面对这一现象,有人提出中国的超算是“(堆)硬件上的领先”,并引用清华大学科学史系博士后司宏伟文章,认为:“中国超级计算机的自主创新之路还任重而道远,面临着原创能力不足、人才匮乏及应用较少等问题”。\r\n2021年底,司宏伟在发表的一篇文章中指出:若以国内目前传统技术方法构建一台E级的超级计算机,年能耗将会超过三峡水库发电量的1/3。\r\n美国加州大学计算机工程博士刘少山认为:国内超算软件人才与美国相比还有很大差距,目前绝大多数超算底层软件库都是由美国的科研人员所研发。中国还很缺能够利用超算解决应用问题的高素质人才。国家超级计算无锡中心并行优化部主管刘钊在接受媒体采访时谈到,近年来在互联网公司的冲击之下,无锡(超算)中心的人手一直吃紧,特别是应用领域人才偏少,大约只占研发团队人员的三分之一。\r\n如果只看这些材料,难免给人一种感觉,中国过去在超算领域长期领先只是偶然的,中美超算的潜在实力相差很远,事实果真如此么?\r\n\r\n01\r\n\r\n** **中美超算水平依然接近** **\r\n\r\n根据中国科学院院士钱德沛2019年所做的一个报告,1993-2012年,超级计算机的性能大约每10年提高1000倍,从2013年起,上升速率变缓,降低为每10年100倍左右。但无论如何,超级计算机性能增长的速度远高于民用PC的性能增长,这说明超级计算机性能提高固然要靠单芯片性能的增长,也非常依赖系统规模的扩大。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsx3qEpqgFFk0mickqt749zS3PhZsF5friaCmVf7DoROJysAyq1ETXjBwAg/640?wx_fmt=png)\r\n超算性能增长曲线\r\n超级计算机的性能野蛮生长了20年,至今为止,美国研制Frontier的花费也不过区区6亿美元,这说明超算系统规模的扩大并不是简单的堆硬件。过去超级计算机竞争的关键,就在于研发设计芯片间计算任务调度、分发、通信的软硬件,使得数量众多的芯片能够以较高的效率同时进行计算。\r\n\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxudH6przhNSOpB0IoiaTPpd8egmNeTm8lGibGCglsiaIlrdRKuKxia8QK7Q/640?wx_fmt=png)\r\nFrontier超算\r\n\r\n一些文章虽然正确科普了通信技术对超算的重要性,但却陷入到对美国超算通信技术的盲目崇拜中去,把Frontier采用的HPE Cray\r\nSlingshot-11说成是“最先进的”,而没能客观比较中美超算通信难度。2016年,中国正式公布了神威·太湖之光超算,该超算共由40960块“申威26010”处理器构成,这些处理器分属20480个节点。\r\n而美国的Frontier只有9408个节点,每个节点配备一个AMD Epyc 7A53 CPU和四个AMD Instinct\r\nMI250X加速卡。显然,Frontier的节点间通信的压力要小得多,也更容易设计。因为Frontier拿了第一,所以就认为美国在超算调度、分发、通信等等领域超过中国,这显然是不客观的。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxkGlSfmLVib7a9xSx9CXrZC5deZ6YLORPVgib61Qre37DkqVwlKC6xwyQ/640?wx_fmt=png)\r\nFrontier的基本情况\r\n有人可能会觉得只比较节点太过于武断,其实早在2016年中科曙光就正式启动了E级超算的研制项目,2018年前后同时在研的有曙光、神威、天河三种技术路线的E级超算,其中进度最快的“天河三号”原型机,2018年7月就通过了验收,标志着中国掌握了E级超算相关技术。\r\n但中国超算继续领跑榜单的情况并未出现,这主要是由于美国对中国超算发展始终持不正常的阴暗想法,蛮横无理地采用包括单边制裁在内的手段遏制中国超算发展,导致中国从2020年开始不愿意提供中国超算的基准测试数据,并加强了保密措施。正如上海交通大学网络信息中心副主任、高性能计算专家林新华所说:“进入TOP500\r\n是为了促进国际合作,但结果却适得其反”。\r\n那么中国是否具有E级超算呢?今年五月美国田纳西大学相关领域的教授杰克·唐加拉认为:“中国是有东西的”,“只是没有官方的说法”。无独有偶,去年刊登在《THE\r\nNEXT\r\nPLATFORM》的一篇文章援引“匿名权威人士”的话指出,中国神威·太湖之光的后续型号海洋之光,2021年3月运行基准测试时,稳定运行速度达到了1.05EPlop/s,其时的功率为35MW。\r\n如果该文数据正确,那么有人说中国的E级超算功耗“将超过三峡发电量的1/3”的说法不攻自破。\r\n国外媒体的猜测并非空穴来风,今年4月中国科学技术大学、国家海洋科学与技术试点实验室(青岛)、北京大学数学科学学院、无锡国家超级计算中心和中国海洋大学组成的联合团队,公布了一篇超级计算机模拟复杂量子多体的文章,文章中介绍了高性能计算环境时报告了sw26010pro的架构。该CPU作为sw26010改进型,拥有6个计算组,每个计算群有1个管理核心和64个计算核心。而组成太湖之光的sw26010,只有4个计算组,说明sw26010pro单片至少有50%的性能提升,极可能属于新超算,文章也称之为“新一代神威超级计算机”。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxLIB5GExlWkGVUBJU4JibtbdmBT26R7Mc1PycLhiajpIEwq5BibVndAxVA/640?wx_fmt=png)\r\nsw26010pro的架构\r\n同样基于“新一代神威超级计算机”还有第一单位为中国科学技术大学的一篇论文,该研究首次实现了长达7天的全球3公里空间分辨率大气物理-\r\n化学全耦合数值模拟试验。文中提到,数值模拟试验的规模最大曾经达到过近4000万处理器核,并且效率仍然达到76.2%。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxRxn2M6KWiaiahB7pppEmhiavHC92PUmQSCywkibibVSF45xhHdHMgOX652Q/640?wx_fmt=png)\r\n相关论文\r\n从论文中透露的信息,我们不难分析出两点内容。一是“新一代神威超级计算机”的规模很大,远超过神威·太湖之光(最大1000多万个处理器核)。二是“新一代神威超级计算机”效率很高,须知几乎没有超算程序的运行效率高于基准测试。美国的Frontier运行基准测试时,效率也不过能达到理论的65%,还有很大的进步空间。\r\n更为直接的证据来自于2021年一项利用神威·海洋之光实时模拟量子电路的研究。该研究披露,海洋之光的节点高达惊人的107520个!模拟程序的速度可以达到1.1EPlop/s(单精度)或者4.4EPlop/s(F16混合精度)。\r\n由于模拟使用的海洋之光还是片上异构式的超算,1.1EPlop/s(单精度)换算成超算常用的双精度至少有0.55EPlop/s。如果海洋之光没有对混合精度进行过优化,那么4.4EPlop/s(F16混合精度)换算成双精度就有1.1EPlop/s,这一成绩已经与Frontier运行基准测试的成绩差不多了。何况模拟程序的效率,几乎肯定达不到基准测试,海洋之光的实际速度还可能更高。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxF9SBZmQkSgETlficDet4qfibKuDYY3ic86HOVnmq3dxXI0UibNbMzu4fIg/640?wx_fmt=png)\r\n论文中关于计算速度的表格\r\n因此我们可以放心大胆地认为:中国即使没有E级超算,也非常接近,中美超算技术并未重新拉开差距,而这些成绩还是在西方国家严格制裁的情况下取得的。\r\n同时,这么多的论文和研究,也说明中国超算的应用水平已经达到了相当的水平。固然还有提高的空间,却不像一些人所说的那样一团黑。\r\n\r\n02\r\n\r\n** **美优势在于民用芯片** **\r\n\r\n中美超算水平接近,是否意味着美国超算就不值得借鉴呢?显然不能这么说,美国这次超算重新夺魁,一个突出的优势就在于美国的民用芯片水平很高,并且带动了像超算这样的专用领域。\r\n在神威·太湖之光以前,超算的竞争主要是超算系统中调度、分发、通信相关的软硬件的竞争。每一个节点要么纯CPU,要么是CPU+加速卡的异构计算方案,为了提高性价比和计算速度,往往还会购买英特尔和英伟达两家美国厂商的成熟产品,早期的天河系列超算就是典型代表。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxbFicVfv775esdtzbAYgIVBhlUUbHRfA6U2jia5n8LU7EozE216P48fCw/640?wx_fmt=png)\r\n天河2号是典型的异构计算\r\nCPU+加速卡方案的优点是将管理(通用计算)和专业计算分开,提高了单节点的计算速度,但缺点是计算的数据会反复在CPU和加速卡之间传输,造成大量的性能浪费。而太湖之光使用的sw26010将两个部分的电路,集成到了一个芯片上(片上异构),这样既避免了纯CPU不擅长专业计算的劣势,又避免了加速卡不能和CPU共享内存的问题。\r\n值得一提的是,2010年前后开始,纯CPU的方案劣势太大,越来越少地被采用。而无论是异构计算,还是片上异构,编程都不容易,且掌握起来难度都差不多。不存在中国超算芯片因为不用于商业市场,所以程序兼容性不好的问题。\r\n正是由于这个创新,sw26010在设计团队规模很小,制程落后整整两代的情况,实现了和英特尔类似产品相似的功耗和性能。太湖之光的成功,启迪了后来日本的“富岳”超算。“富岳”同样抛弃了美国成熟的计算方案,购买ARMv8.2-A指令集开发管理核心,并自研专业计算模块,推出了富士通版的片上异构芯片A64FX。\r\nA64FX的架构和sw26010即使不能说一模一样,也可算得上极为相似,同样是四个计算组,就连性能也差距不大。A64FX的理论性能是2.7TFlop/s,sw26010的为3.06TFlop/s。仅就性能而言,2018年推出且工艺更先进的A64FX尚不及2015年的sw26010,足以说明神威超算开发团队在立项sw26010时独具慧眼。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxwOb5ZK7quG3CHXx25GBu6EO3sx1sF9ABo3kN0vFDkeWO6mS8bGwDBA/640?wx_fmt=png)\r\nA64FX架构介绍\r\n从理论上讲,片上异构具有突出的功耗比优势,因为调度和传输浪费的计算性能较少。太湖之光的实测性能与理论性能之比高达74%,日本的“富岳”更是达到82%,而美国的Frontier由于是传统的CPU+加速卡架构,只有65%,但是Frontier功耗远低于“富岳”,很可能也明显低于中国的E级超算。这意味着芯片间调度过程中浪费的性能,被每个芯片优异的功耗表现省了回来。\r\n由于美国的半导体封锁,中国超算芯片不可能运用先进的制程,单芯片功耗比表现不佳情有可原。但日本的富士通A64FX使用的制程与美国的几乎一样,性能表现上出现这么大的差距,只能是两国民用半导体产业内功相差甚远。\r\nFrontier是由AMD主导打造的,AMD曾经在与英特尔的商业竞争中受挫,从而差点一蹶不振。2015年,AMD携带十年磨一剑的Zen架构再踏征程,在CPU方面与英特尔展开了惨烈的商业竞争。AMD还做GPU,与英伟达也杀的难解难分。伴随着竞争而来的是,CPU、GPU的功耗比陡峭的下降,性能迅猛的上升。\r\nFrontier使用的是AMD Epyc 7A53\r\nCPU,为了充分降低功耗,这款64核的CPU主频被限制在了2.0Ghz。虽然AMD不愿透露更多信息,外界普遍猜测这款号称为超算定制的CPU改进是有限的。AMD用于数据中心的芯片本来就有很多64核的芯片,其中有很多的基础频率就是2.0Ghz,将其用于超算,主要是限制主频+芯片特挑。除此之外,AMD的64核芯片早已形成了多条产品线,既有压低功耗的,也有像Epyc\r\n7H12这样的高功耗高性能的芯片。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxbDtIKUkcPodWv6DHICUiaiaCzzQHubTC4XibIydL2MEvlBbwX8ywQBhtw/640?wx_fmt=png)\r\nAMD部分64核数据中心服务器芯片 由于AMD的64核系列能够在商业市场赚大钱,进而投入更多成本进行优化,因此Epyc\r\n7A53虽然投入精力不多,也能在超算市场打出一片天来。 Frontier核心计算部分主要依靠AMD Instinct\r\nMI250X加速卡,采用的是CDNA2架构,熟悉游戏显卡的人不难想到近年来AMD游戏显卡的架构是RDNA2,两者之间是存在关系的。MI250X加速卡可视为一张专门为计算打造的显卡,众所周知美国的CPU设计技术领先世界,但很少有人知道美国的GPU设计技术更是和其他国家拉开了代差。其他国家独立自主研发的顶尖GPU,绝对性能与美国英伟达、AMD等巨头之间存在2-3个数量级的差异。\r\nFrontier之所以能在节点数量远少于海洋之光和“富岳”的情况下,实现E级超算,关键就在于 MI250X加速卡突出的性能和功耗比。一张\r\nMI250X能提供的理论双精度性能竟然有47.9\r\nTFLOP/s,是富士通A64FX的17倍,要是双精度运算全是超算应用中较多的矩阵运算,MI250X的理论性能还能进一步提高到95.7 TFLOP/s。\r\n![](https://mmbiz.qpic.cn/mmbiz_png/icuSBq2FBx86vbASeHJfqFF3z9LWwFbsxVKXta6LYgUv9bUp1KMIZjtVWsNYTyiblfhKhbFBjtHDKgpqNHAPh3RA/640?wx_fmt=png)\r\nMI250X的基本情况 MI250X加速卡这么强,不光是AMD本身的设计,每块加速卡上还集成了128GB\r\nHBM2e高带宽内存。现在的超算主要还是冯诺依曼结构占主导,内存速度将直接影响计算速度,这种内存比普通的要快得多,目前却只有少数企业能够生产。\r\n由于美国有着极为发达的民用芯片产业,因此Frontier作为美国首台E级超算,基本没在超算理论上费多少心,主要就是依靠近年来民用CPU、GPU功耗急剧下降,GPGPU(计算显示核心)蓬勃生长的浪潮,极大的提高了每个节点的性能实现的。\r\n面对此情此景,我们要做的,不是否定过去筚路蓝缕艰苦奋斗的国产超算成就,而要鼓励民用计算机产业努力升级直面竞争。超算是计算机产业的皇冠,超算和民用芯片的关系有越来越大的趋势,只有我们民用计算芯片的宝石足够大、足够多,中国超算的皇冠才能更加璀璨。\r\n**来源|科工力量** **** 支持我们👇 点击下面图片即可购买我们的新书👇 ** ** [\r\n![](https://mmbiz.qpic.cn/mmbiz_jpg/icuSBq2FBx874mbZXNN3dxn02ic6DSrDKicZFYNBLwq9ic5JLrPUg2rjnXcgOX8k4UhVTiaCcsvpA4RIPcKh8rDia8uw/640?wx_fmt=jpeg)\r\n]()\r\n\r\n预览时标签不可点\r\n\r\n微信扫一扫 \r\n关注该公众号\r\n\r\n\r\n\r\n\r\n\r\n****\r\n\r\n\r\n\r\n****\r\n\r\n\r\n\r\n× 分析\r\n\r\n: , , , , , , , , , , , , 。 视频 小程序 赞 ,轻点两下取消赞 在看 ,轻点两下取消在看\r\n分享 留言 收藏\r\n\r\n","Timestamp":1655740800000,"PublicKey":"025BB998F9094380ADAEE18FE09936970A0D80EB4AC0A750302305B6362D0F656B","Signature":"3045022100D1CD8BEA443777F9C94DD3AA82B2B8DE412E4F73359DDF49ECFB4E096F79160002207B07CB3124D0DEFC2DB4B71E05FABCB78E0920CCEC80AF287F90A73B5445386C"}
oxo