E級計算機含義是每秒10的18次方科學計算的能力,也就是要完成1exaflop/s的浮點運算能力。最新發(fā)布的HPCTop 500排行榜中,排名第一的Summit超級計算機的計算能力達到了148.6PFlop/s,距離E級計算也不過是一步之遙。
看似近在咫尺,但實現(xiàn)E級計算機遠沒有那么樂觀。
眾所周知,E級計算有5大難題:功耗墻、訪存墻、通信墻、可靠性以及并行計算可擴展性,任何一個都足以讓E級計算夭折。
盡管如此,技術進步也為E級計算設計提供了可能,以日本Fugaku(POST-K)為例,除了向量處理器之外,更高帶寬的HBM內(nèi)存,也就是3D內(nèi)存產(chǎn)品,就成為了仰仗的利器。與之相比,歐洲非常重視開源處理器架構RISC-V以及由Atos公司牽頭自研的歐洲處理器,歐洲在新的計算模型、語言、算法,以及大規(guī)模數(shù)據(jù)模擬方面雄厚積累,也是他們的優(yōu)勢。美國方面,投資18億美元研制3臺E級計算機同時,另投入18億美元用于研發(fā)應用,一句話,八仙過海,各顯其能。
在如此緊迫的局勢面前,中國的超級計算計從安處?
作為國內(nèi)高性能計算的領頭企業(yè),聯(lián)想給出了自己的答案:融合計算。
那么,什么是融合計算?E級計算又融合了什么?在此,給出了E級計算超級計算機的2種實現(xiàn)方式:僅為E級計算設計而設計,以及EveryScale設計方式。
所謂EveryScale重點強調(diào)的是采用開放的技術設計,利用現(xiàn)有科技技術的進步,積小勝為大勝,尋求突破。
以網(wǎng)絡通信為例,HDR的共享I/O為每個高性能計算節(jié)點提供了100GB帶寬的連接;溫水冷卻技術為散熱,能耗比提供了堅實的技術支撐。據(jù)透露,為了突破數(shù)據(jù)訪存墻,聯(lián)想針對NVMe SSD、SCM等新一代存儲介質(zhì)進行極致優(yōu)化設計,構建了面向下一代可橫向擴展的分布式存儲新產(chǎn)品NFDS。
更能夠體現(xiàn)開放技術設計思路的是HPC與AI、大數(shù)據(jù)技術的融合。
與以往不同的是,這里的融合不僅僅強調(diào)AI、大數(shù)據(jù)應用需要高性能計算,新的融合計算也強調(diào)AI、大數(shù)據(jù)分析對于HPC設計的反哺。
以目前Top 500排行第一的Summit為例,他們設計了一個神經(jīng)網(wǎng)絡模型,通過訓練作為數(shù)據(jù)仿真的代理,能夠在極短時間內(nèi)評估模型參數(shù),指導高性能計算仿真應用。
有數(shù)據(jù)表明。傳統(tǒng)HPC 500萬次仿真,30億CPU小時的計算,經(jīng)過AI仿真,被成功壓縮為6萬次,計算效率大大提升。
此外,以AI應用為核心的智能化運維,對于超級計算機設計同樣至關重要。
眾所周知,Top500排行的超級計算機,大多采用了Cluster集群技術,借助計算節(jié)點堆疊來提升計算能力。如今PFlop/s級別的超級計算機,計算核心多達上百萬,如果全部采用CPU實現(xiàn),大約需要多達數(shù)萬臺x86服務器。我們假設服務器可靠性是萬分之一,那么,由萬臺節(jié)點構建的Cluster集群,技術難度可見一斑。x86服務器可靠性將是一個主要瓶頸。
AI、機器學習、數(shù)據(jù)分析技術的使用,讓我們能夠未卜先知,準確控制和處理故障節(jié)點,這就為更大規(guī)模Cluster創(chuàng)造了條件,這也是AI融合計算的精髓。
融合計算不僅體現(xiàn)在硬件,也體現(xiàn)在軟件。
LiCO能夠幫助用戶管理好他們的AI系統(tǒng)。
融合計算不僅是技術的融合,也是行業(yè)應用的融合,這也是聯(lián)想堅持采用開放技術的重要原因。
E級計算并不是拿來看的,也是要拿來的用。在剛剛結束的世界超算大會(ISC 2019)上,聯(lián)想以173套的成績再次蟬聯(lián)HPC TOP500榜單全球第一,不僅印證了聯(lián)想是全球最大HPC提供商的地位,也說明聯(lián)想HPC真正做到了與行業(yè)的深度融合。
聯(lián)想將繼續(xù)以“全球化+中國特色”作為業(yè)務戰(zhàn)略,充分發(fā)揮自身優(yōu)勢,構建高度安全、可信的信息產(chǎn)業(yè)基礎設施,推動中國企業(yè)實現(xiàn)技術升級與產(chǎn)品創(chuàng)新,這才是我們需要的??梢灶A見,以融合計算為基石,E級計算的夢想并不遙遠!