千萬億次的概念
實際上我們在談千萬億次超級計算機時必須要區(qū)分三點:一是系統(tǒng)理論峰值計算速度千萬億次;二是通常意義下全球TOP500排名中 Linpack測試峰值Pflops; 三是在實際應(yīng)用中持續(xù)應(yīng)用性能Pflops。我們在談到千萬億次計算時更多的是指在實際應(yīng)用中持續(xù)應(yīng)用性能超過千萬億次每秒。
TOP500中幾年來第1名和第500名均保持6~8年的時間,也就是說當今的第1名在6~8年后則排名到第500名,而8~10年后微處理器芯片就可達到本年度TOP第500名的浮點性能。當前,全球高性能計算機學術(shù)界及產(chǎn)業(yè)界都期待并預(yù)測2010年6月第一臺Linpack測試峰值千萬億次(Petaflops)計算機的出現(xiàn),并期待8年后,也就是2018年,千萬億次超級計算時代的真正到來,也就是說千萬億次將是全球TOP500排行榜的入門門檻。
超級計算機一直是各國關(guān)鍵技術(shù)裝備之一,廣泛應(yīng)用于國防、信息安全、石油勘探、氣象預(yù)報、生物制藥、工程仿真、科學計算、商業(yè)計算等領(lǐng)域,是各國戰(zhàn)略競爭的制高點。當前,全球各國都投入了巨大的人力物力進行研究。
第28次全球TOP500超級計算機系統(tǒng)排行榜地域分布,我們可看到,全球最快性能TOP500超級計算機大部分在美洲,歐洲和亞洲最快 TOP500超級計算機之和也不敵美國。近年歐洲超級計算機比例有所下降,美洲則有所增長。歐洲和亞洲已勢均力敵,其占有量英國和德國占有優(yōu)勢。在亞洲超級計算機占有量日本占優(yōu)勢,中國和印度正在奮力直追,但與美日相比,仍有較大差距。
各國的千萬億次之路
當前全球共有四個國家發(fā)布了千萬億次超級計算機系統(tǒng)研發(fā)計劃。
1.美國
DARPA HPCS(美國國防部預(yù)先研究計局,High Productivity Computing Systems program)項目目標就是開發(fā)高生產(chǎn)率千萬億次超級計算機系統(tǒng),當前該項目已從大規(guī)模研究階段轉(zhuǎn)向最后階段–2010年前完成兩臺千萬億次高生產(chǎn)率超級計算機系統(tǒng)的研制和開發(fā)。IBM PERCS系統(tǒng)和Cray的"適應(yīng)性超級計算"(Adaptive Supercomputing) Cascade 系統(tǒng)分別獲得2.5億美元和2.44億美元資助,用以研制并產(chǎn)品化可擴展至4Pflops的超級計算機。該項目千萬億次超級計算機系統(tǒng)每秒千兆位 (GUPS)更新(系統(tǒng)對存儲器的隨機更新速度)將達到8000-64000GUPS,將是當前GUPS最高記錄保持者–IBM藍色基因(IBM Blue Gene/L)的200~1800倍。
IBM PERCS系統(tǒng)基于Power7微處理器、AIX操作系統(tǒng)、通用并行文件系統(tǒng)(GPFS)、IBM并行計算環(huán)境及互聯(lián)和存儲子系統(tǒng)進行開發(fā)。在該系統(tǒng)中IBM同時計劃開發(fā)高效用軟件和開發(fā)工具,以提高開發(fā)人員的生產(chǎn)率。
Cray Cascade 系統(tǒng)本質(zhì)上是一個能在單系統(tǒng)中提供包括標量、FPGA和混合矢量/超級多線程(MMT)處理器板卡的機箱內(nèi)集群(cluster-in-a-box)。在該系統(tǒng)中,Cray將設(shè)計一款基于其XD1系統(tǒng)的FPGA加速板卡。Cascade系統(tǒng)將開發(fā)編譯器軟件以處理多種涉及標量、矢量或MMT應(yīng)用的混合任務(wù)。在未來四年中,Cray將基于Cascade系統(tǒng)研發(fā)商品化的千萬億次超級計算機,如為美國國家橡樹嶺實驗室 (ORNL)開發(fā)代號為"Baker"的超級計算機系統(tǒng)。"Baker"超級計算機預(yù)計采用四路雙核AMD Opteron處理器(24000個處理器),基于Cray專用SeaStar 3D互連網(wǎng)絡(luò)實現(xiàn)和AMD HyperTransport總線互聯(lián)。
2006年9月,IBM發(fā)布了代號為"RoadRunner"的千萬億次超級計算機研發(fā)計劃,這臺代號為"Roadrunner"的千萬億次超級計算機計劃于2008年部署在美國洛斯阿拉莫斯國家實驗室(LANL),采用基于AMD Opteron的"IBM System x3755服務(wù)器"與基于Cell BE的"IBM BladeCenter H 系統(tǒng)"來構(gòu)造,以實現(xiàn)1.6Pflops以上的峰值性能。全系統(tǒng)預(yù)期采用16000顆AMD Opteron CPU 和16000顆八核Cell 處理器芯片,同時Roadrunner還將采用先進的"混合編程(Hybrid Programming)"軟件,以實現(xiàn)異構(gòu)計算。在超級計算機研發(fā)方面,IBM的目標是2010年開發(fā)出峰值性能達到1Pflops的"藍色基因/P" 系統(tǒng),2010~2012開發(fā)出峰值性能達到10Pflops的"藍色基因/Q"系統(tǒng)。
美國能源部(DOE)和國家科學基金會(NSF)也都推出了各自的Petaflops系統(tǒng)研制計劃,NSF的目標是在2010年左右實現(xiàn)持續(xù)性能達到Pflops規(guī)模的系統(tǒng)。
2.日本
當前日本共有五個千萬億次超級計算機研制計劃: MDGRAPE-3計劃,2006年6月完成;GRAPE-DR 計劃,2004年到2008年;Next-Generation Supercomputer Project 計劃,2006年到2012年完成;富士通公司(Fujitsu)3Petaflops超級計算機系統(tǒng)研制計劃,2005到2011年完成;地球模擬器的升級計劃。
從某些方面來說,日本已憑借其MDGrape-3高度并行專用超級計算機系統(tǒng)實現(xiàn)了Pflops計算能力。Grape計劃開始于十幾年前,最終在2006年6月完成。其目的是為天文模擬以及后來的分子動力學模擬提供高精度N-體計算,由日本物理與化學研究所牽頭。
與此同時,富士通公司與日本九州大學合作期望能在2011年實現(xiàn)3Pflops超級計算機系統(tǒng)。該系統(tǒng)基于光交換(opto- switching)技術(shù),采用100Gflops處理器,一塊處理芯片上具有8個處理器。"地球模擬器"計算機升級后也預(yù)期將達到16Pflops性能,該系統(tǒng)將采用兩種計算模式:粗略計算和精確計算以實現(xiàn)更高的并行計算效率。
3.法國
法國Bull公司也計劃在2013年開發(fā)出千萬億次超級計算機系統(tǒng),用于一項法國軍事項目。
4.中國
根據(jù)《國家中長期科學和技術(shù)發(fā)展規(guī)劃綱要》、《國家"十一五"科學和技術(shù)發(fā)展規(guī)劃》和《863計劃"十一五"發(fā)展綱要》,我國設(shè)立了"高效能計算機及網(wǎng)格服務(wù)環(huán)境"重大項目,曙光公司和中科院計算所已獲該重大專項基金支持,將在2008年6月完成應(yīng)用于科學工程計算、網(wǎng)絡(luò)信息服務(wù)和數(shù)據(jù)庫應(yīng)用的100萬億次超級計算機系統(tǒng),并在2010年最終實現(xiàn)中國的千萬億次超級計算機系統(tǒng)。
挑戰(zhàn)依然嚴峻
如果用刀片服務(wù)器在理論上來構(gòu)建千萬億次超級計算機系統(tǒng),我們?nèi)舨捎?4位2.4GHz 四核處理器(每個核2個CPU),每顆CPU實現(xiàn)38.4Gflops的計算性能,那么我們需要26200顆四核 64位2.4GHz CPU。如果每個刀片服務(wù)器采用7U10片的架構(gòu),每個計算刀片采用雙路SMP,我們需要采用1310個刀片服務(wù)器、220個標準42U機柜,才能實現(xiàn)1Petaflops的峰值計算性能。整個系統(tǒng)預(yù)期重250噸,功耗在400兆瓦以上。
這只是理論峰值的構(gòu)建,具體在構(gòu)建中,我們將面臨諸多的問題:操作系統(tǒng)、編譯軟件、并行計算環(huán)境等系統(tǒng)和應(yīng)用軟件的擴展性問題,如何支持 26200顆CPU的擴展; 網(wǎng)絡(luò)互聯(lián)問題,我們需采用什么樣的網(wǎng)絡(luò)來降低如此大規(guī)模系統(tǒng)通信之間的延遲; 高效率并行算法的挑戰(zhàn),在千萬億次超級計算機系統(tǒng)中由于求解問題和系統(tǒng)規(guī)模的擴大,我們需要并行度和并行效率更高的算法;同時我們也面臨系統(tǒng)高可靠性和散熱、功耗、占地面積的挑戰(zhàn),具體如下所述:
1.擴展性問題
在一個十萬億次量級的高性能計算機系統(tǒng)中,當前千兆以太網(wǎng)、萬兆以太網(wǎng)、InfiniBand、 Myrinet、Quadrics等商業(yè)化網(wǎng)絡(luò)均可為應(yīng)用開發(fā)者提供完整的網(wǎng)絡(luò)互聯(lián)。在一個胖樹拓撲結(jié)構(gòu)中,用戶不必過于關(guān)注延時,但當系統(tǒng)規(guī)模擴展超過 2萬個處理器時,就必須采用低度(low-degree)互連或網(wǎng)格(grid)互連,胖樹結(jié)構(gòu)不適用于這樣的規(guī)模,延時將變成一個非常重要的問題。千萬億次計算機系統(tǒng)如何提供大規(guī)??蓴U展低延遲交換互聯(lián)?
與此同時,今天,基本上沒有系統(tǒng)軟件和應(yīng)用軟件能擴展到這樣一個處理器的規(guī)模。當前最快性能超級計算機擁有超過6000顆處理器,未來的千萬億次計算機系統(tǒng),其復(fù)雜性將遠遠超過這一規(guī)模,我們迫切需要重新設(shè)計軟件與硬件編程模型,以適應(yīng)系統(tǒng)的大規(guī)模擴展和求解問題的大規(guī)模擴展,并確保其高效性和高并行度。
2.可靠性問題
當千萬億次超級計算機系統(tǒng)擴展到成萬或十萬顆之多CPU以及幾百TB內(nèi)存時,我們?nèi)绾伪U嫌布到y(tǒng)的可靠性,同時在這樣大規(guī)模的系統(tǒng)運行中,軟件錯誤也很難避免。
我們必須設(shè)計系統(tǒng)級的故障隔離、故障恢復(fù)機制,從而有效減少系統(tǒng)的平均無故障時間,也就是說,系統(tǒng)必須具備容錯計算的能力。當前從軟件層面實現(xiàn)系統(tǒng)相關(guān)故障的隔離和應(yīng)用遷移是可行的辦法之一。
3. 功耗挑戰(zhàn)
功耗已經(jīng)成為制約千萬億次超級計算機系統(tǒng)研發(fā)的主要因素之一,當前每個節(jié)點功耗在300到1500瓦之間,而一個機柜功耗在20到30千瓦左右。當今全球百萬億次超級計算機系統(tǒng)功耗在1500千瓦到8000千瓦之間,2010年一臺持續(xù)千萬億次超級計算機系統(tǒng)可能需要消耗20兆瓦或更高的功耗,其每年的電費開銷也將高達1億元人民幣以上。當前全球也只有少數(shù)幾個實驗室能滿足這樣的能耗要求。
同時能源的價格也在飛速增長,未來2010年千萬億次超級計算機系統(tǒng)的能源消耗預(yù)期將遠高于以上估算。我們可能會采取比如水冷或節(jié)能型芯片、FPGA(現(xiàn)場可編程門陣列)等技術(shù),但不能從根本上解決能耗問題。
4.均衡性挑戰(zhàn)
千萬億次超級計算機系統(tǒng)其均衡性設(shè)計面臨諸多挑戰(zhàn):
其一,存儲器性能與處理器性能差距的越來越大以及本地帶寬及延遲和全局帶寬及延遲的不一致性導(dǎo)致存儲器供數(shù)能力與處理器計算能力的不協(xié)調(diào),我們也稱之為存儲器墻(Memory wall)。
其二,確保系統(tǒng)從I/O輸入到I/O輸出均保持均衡的帶寬設(shè)計,在有著2萬顆或更多顆處理器的千萬億次超級計算機系統(tǒng)中保持這種I/O均衡設(shè)計并非易事。
其三,千萬億次超級計算機生態(tài)鏈的均衡發(fā)展挑戰(zhàn)。持續(xù)應(yīng)用性能千萬億次超級計算機發(fā)展涉及到芯片、操作系統(tǒng)、編譯器、并行計算環(huán)境、上層應(yīng)用軟件、算法、存儲系統(tǒng)、交換系統(tǒng)等產(chǎn)業(yè)鏈各個環(huán)節(jié)的均衡發(fā)展,也涉及到技術(shù)、資金、人才、產(chǎn)業(yè)界、學術(shù)界等諸多環(huán)節(jié)的均衡發(fā)展與協(xié)調(diào)配合。