內(nèi)存和I/O 墻(Memory and I/O Wall):系統(tǒng)結構的失衡問題,存儲器性能與處理器性能差距越來越大,本地帶寬及延遲和全局帶寬及延遲發(fā)展不一致所造成的差距形成了阻礙性能提升的"內(nèi)存墻"(Memory Wall);系統(tǒng)從I/O輸入到I/O輸出的不均衡帶寬設計,讓系統(tǒng)吃得進,吐不出,從而形成"I/O墻"(I/O Wall);

功耗墻(Power Consumption Wall):當前功耗也已經(jīng)成為制約高效能計算機系統(tǒng)發(fā)展的主要因素之一,當前每個機群節(jié)點耗電在300到1500瓦之間,而一個機柜耗能在20到30千瓦左右,2016年一臺持續(xù)千萬億次超級計算機系統(tǒng)可能需要消耗20兆瓦或更高的功耗。

未來千萬億次計算時代高性能計算機系統(tǒng),其每瓦Gflops性能應在1.0GFlops per watt 以上,我們可能會采取比如水冷或節(jié)能型芯片、FPGA等技術,但不能從根本上解決能耗問題;

編程墻(Programming Wall):在編程方面,用戶為完成一個具體的并行應用在建模、編碼、調(diào)試、優(yōu)化、運行、維護和故障處理上所遇到的各種困難交錯形成了"編程墻"(Programming Wall),怎樣很好利用為數(shù)眾多的處理器海(Processor Sea)?怎樣面對數(shù)十萬并發(fā)線程?

復雜性和可靠性墻(Complexity Wall):在管理方面,高性能計算機軟硬件系統(tǒng)交織,管理的復雜性隨之成倍增長,形成了新的"復雜性墻"(Complexity Wall);

可靠性墻(Availability Wall):對高性能計算機系統(tǒng)來說,可靠性也是其挑戰(zhàn)之一,當其擴展到成萬或十萬顆之多CPU以及幾百Terabytes內(nèi)存時,我們?nèi)绾伪U嫌布到y(tǒng)的可靠性,同時在這樣大規(guī)模的系統(tǒng)運行中,軟件錯誤也很難避免;

擴展性墻(Scalability Wall):在一個十萬億次量級的高性能計算機系統(tǒng)中當前千兆、萬兆以太網(wǎng)、Infiniband、 Myrinet、Quadrics等商業(yè)化網(wǎng)絡均可為應用開發(fā)者提供完整的網(wǎng)絡互聯(lián)。

在一個胖樹拓撲結構中,用戶不必過于關注延時,但當系統(tǒng)規(guī)模擴展到2萬個以上處理器時,就必須采用低度(Low-degree)互連或網(wǎng)格(Grid)互連,胖樹結構不適用于這樣的規(guī)模,延時將變成一個非常重要的問題。

同時,今天基本上沒有系統(tǒng)軟件和應用軟件能擴展到這樣一個處理器的規(guī)模,我們需要重新設計軟件硬件編程模型,以適應系統(tǒng)的大規(guī)模擴展和求解問題的大規(guī)模擴展,并確保其高效性和高并行度;

與此同時,在另一方面,雖然多核處理器是當前乃至未來構建高性能計算機的基礎,但多核處理器也對傳統(tǒng)的系統(tǒng)結構提出了新的挑戰(zhàn),如:如何對芯片、板極、系統(tǒng)級三級并行結構進行均衡設計?

如何將通信延伸到多核內(nèi),發(fā)揮由上萬個處理器核構成的大規(guī)模并行系統(tǒng)的計算能力?如何增加應用的可移植性?如何減少多核帶來的存儲器壁壘加?。?/p>

可以看到,上述內(nèi)存墻、I/O墻、功耗墻、復雜性墻、編程墻、擴展性墻等諸多問題為高性能計算機的發(fā)展及其平民化應用設置了重重障礙。美國國防部于2002年制定的"高效能計算系統(tǒng)"(High Productivity Computing Systems,簡稱HPCS)研究計劃(IBM PERCS、Cray Cascade、SUN Hero成為首批入選計劃)首先提出了以高效能作為新一代高性能計算機研制的目標。高效能代表了高性能計算機研究的新方向,其包含了高性能、可編程性、可移植性、穩(wěn)定性等多個方面的要求:

高性能(Performance):在重要的國家安全應用方面,將由十多個到上千個節(jié)點組成的系統(tǒng)可伸縮能力和商用計算效能提高10到40倍;

可編程性(Programmability):減少應用方案的開發(fā)時間,降低系統(tǒng)運行和維護成本,提高系統(tǒng)使用效率;

可移植性(Portability):將研究和運行的高效能應用軟件與系統(tǒng)平臺分離開;

健壯性(Robustness):針對外界攻擊、硬件故障及軟件錯誤開發(fā)相應的保護技術,為用戶提供增強的可靠性,減少惡意行為的風險。

全球高效能計算機技術研究現(xiàn)狀

高效能計算機研究領域主要包括高帶寬/低延遲分級存儲系統(tǒng);平衡好處理器、存儲器、網(wǎng)絡帶寬、系統(tǒng)軟件與開發(fā)語言的均衡系統(tǒng)結構;健壯性策略;新的度量準則和基準測試程序;系統(tǒng)自適應性;節(jié)能以及簡化管理復雜性等諸多內(nèi)容。當前HPCS項目已從大規(guī)模研究階段轉向最后階段-2010年前基于IBM PERCS系統(tǒng)和Cray的"適應性超級計算"(Adaptive Supercomputing) Cascade 系統(tǒng)完成兩臺千萬億次高生產(chǎn)率超級計算機系統(tǒng)研制開發(fā)。

IBM PERCS系統(tǒng)基于Power7微處理器、AIX操作系統(tǒng)、通用并行文件系統(tǒng)(GPFS)、IBM并行計算環(huán)境及互聯(lián)和存儲子系統(tǒng)進行開發(fā)。當前 IBM PERCS 項目已經(jīng)公布的幾個研究方向有:片上多處理器(CMP);智能內(nèi)存:在每個DIMM內(nèi)存條上增加一個智能Hub芯片,實現(xiàn)預取、Scatter/Gather、重排序、緩存等功能;全局名字空間支持;混合型DSM:通過X10編程語言實現(xiàn),支持OpenMP程序;異步SMP:簡化目前SMP硬件一致性協(xié)議,使之更接近軟件的應用模式;片上FIFO:將同步和數(shù)據(jù)傳送結合,減少應用中的延遲;基于目錄的cache一致性協(xié)議等。PERCS的存儲系統(tǒng)實現(xiàn)了巨大的UMA結構的SMP系統(tǒng),同時在該系統(tǒng)中IBM計劃開發(fā)高效用軟件和開發(fā)工具以提高開發(fā)人員的生產(chǎn)率。

Cray Cascade 系統(tǒng)聯(lián)合了Stanford、Caltech/JPL和Notre Dame學院的研究人員共同進行開發(fā),具有獨特的處理器設計,單節(jié)點處理器有機地結合了向量處理器、流處理器、多線程處理器設計;輕量級處理器采用了PIM技術和多線程技術。

存儲系統(tǒng)采用UMA+NUMA共享內(nèi)存方式,并提供了靈活的地址變換和分布。Cray Cascade 系統(tǒng)本質上是一個能在單系統(tǒng)中提供包括標量、FPGA和混合矢量/超級多線程(MMT)處理器板卡的機箱內(nèi)集群(Cluster-in-a-box)。在該系統(tǒng)中Cray將設計一款基于其XD1系統(tǒng)的FPGA加速板卡,采用統(tǒng)一的高帶寬光互聯(lián)網(wǎng)絡,節(jié)點(Locale)包含向量部件、粗粒度的多線程處理器、與DRAM結合支持細粒度并行的PIM部件等,提供分布式共享內(nèi)存、多層次多線程執(zhí)行模型、硬件支持的分析和調(diào)試功能。

Cascade系統(tǒng)將開發(fā)編譯器軟件Chapel以處理多種涉及標量、矢量或MMT應用的混合UMA/NUMA編程模型。除上述兩家獲HPCS最終支持的企業(yè)外,SUN也在第一、二階段獲得了支持,SUN HERO計劃主要采用的技術有Sea of Memory技術、Proximity Interconnect 技術、Guarded Pointer技術和Interval Arithmetic(IA)技術。

當前除了上述IBM、Cray、SUN等企業(yè)及學術機構以外,基于可重構計算、專用加速部件、混合異構結構、芯片級、系統(tǒng)級以及基礎架構級節(jié)能等相關技術,學術界和企業(yè)界也已經(jīng)展開了高效能計算機關聯(lián)技術研究。

當前以FPGA、專用加速部件、通用商品化基于多核處理器(Many-Core)為主體的混合異構結構已成為高效能計算機發(fā)展的主流,在這其中,包括節(jié)能、PIM、流式計算、光互聯(lián)、高效編譯器、并行計算環(huán)境等等諸多方面的創(chuàng)新和整合;在應用加速方面,由于FPGA可以根據(jù)不同的應用實現(xiàn)可重構計算,適應高性能計算機面臨的不同的計算模型,同時FPGA在內(nèi)存帶寬、并行處理和低功耗方面有突出的優(yōu)勢,因此與主處理器配合,可實現(xiàn)提高特定應用性能和降低系統(tǒng)功耗的雙重目標,應用前景廣闊,是實現(xiàn)高效能計算的有效途徑之一;在提高存儲器性能方面,基于多層次Cache、加大處理器和存儲器之間的帶寬、多線程、預取、PIM等諸多技術以消除內(nèi)存墻(Memory Wall);

在系統(tǒng)可靠性研究方面,國內(nèi)外研究主要在硬件可靠性、操作系統(tǒng)可靠性和應用可靠性三個方面。硬件可靠性主要沿用60年代大型機系統(tǒng)發(fā)展起來的一系列基礎技術框架,如N模冗余、專用組件或模塊等,通過冗余硬件達到提高系統(tǒng)硬件可靠性的目的。操作系統(tǒng)可靠性研究主要有操作系統(tǒng)隔離技術(如Nooks)、故障忽略技術等,通過將故障忽略或隔離從而減少對應用的影響。

針對科學計算應用,多采用檢查點技術對應用運行的階段性結果進行保存,以備在出錯時進行恢復;在解決管理的復雜性方面,包括自動監(jiān)控全局資源,對監(jiān)控數(shù)據(jù)進行深度挖掘、關聯(lián)分析預測系統(tǒng)行為,根據(jù)應用特征動態(tài)構造虛擬計算環(huán)境,實現(xiàn)應用間性能隔離和安全隔離,對應用軟件的可靠性和擴展性提供支持,提供驗證、模擬、評價工具,并在保證系統(tǒng)性能的情況下,實施自適應功耗管理及可靠性管理;

在解決功耗方面,除采用FPGA、液體冷卻、低功耗專用芯片、芯片級冷卻等技術以外,一些系統(tǒng)級節(jié)能技術也有望解決高效能計算機能耗問題,包括:基于負載情況動態(tài)調(diào)整系統(tǒng)狀態(tài)、實施部分節(jié)點或部件的休眠;根據(jù)各進程能耗的不同對CPU任務隊列進行調(diào)整,如將一些產(chǎn)生較多熱量的任務從溫度較高的CPU上遷移到溫度較低的CPU上從而實現(xiàn)能耗的均衡;在海量存儲和文件系統(tǒng)方面,包括聚合一組存儲設備的容量和I/O帶寬,為高效能計算機提供全局名字空間和高I/O性能,以及采用面向對象存儲技術,將存儲設備與文件系統(tǒng)的接口由原來過于簡單的塊訪問接口變成對象訪問接口等以開發(fā)高性能并行文件系統(tǒng)和相應支持大規(guī)模共享文件系統(tǒng)的存儲系統(tǒng);在并行編程模型方面,當前并行程序設計語言主要有OpenMP、MPI、X10、PGAS、HPF等?;诠蚕泶鎯Φ腛penMP語言的主要問題是沒有數(shù)據(jù)局部性的支持,Clustered OpenMP也只能適應粗粒度并行的程序。MPI模型的問題在于短消息性能不好和可編程性差, HPF由于適應面窄也面臨淘汰。近年來,分割全局地址空間模型(Partitioned Global Address Space Model,簡稱PGAS)廣受關注。PGAS既有共享內(nèi)存編程模型的易編程性,又能讓程序員控制數(shù)據(jù)的分布以達到和消息傳遞編程模型媲美的性能。

可以說當前學術界和工業(yè)界在高效能計算機研究領域已取得了長足的進展,2008年6月IBM Roadrunner 千萬億次超級計算機的提前發(fā)布讓我們看到了高效能計算機平民化應用的希望,也更讓我們對未來千萬億次計算時代的提前到來充滿信心。

我國高效能計算機技術及市場現(xiàn)狀

當前我國在高效能計算機研究方面也取得了重要進展,2008年6月24日亮相的中國曙光5000A兩百萬億次超級計算機就整合了大量高效能技術,包括新型"超并行"體系結構(Hyper Parallel Processing,簡稱HPP)、基于四路高密度刀片服務器架構超并行節(jié)點、基于16端口4x5Gbps交換芯片超并行互連網(wǎng)絡、高性能直接地址訪問式core-to-core通信軟件、高性能全局(組)同步機制、高性能TCP/IP、高性能可移植并行語言編譯器、自動并行化編譯工具ParaORC、高效能虛擬化軟件、面向千萬億次計算機的高性能并行文件系統(tǒng)、檢查點存儲系統(tǒng)和PB級網(wǎng)絡存儲系統(tǒng)、大規(guī)模層次化高效能計算機自主管理軟件、多層次系統(tǒng)級魯棒性技術、面向數(shù)萬個處理器的新型基礎并行算法、自適應功耗管理、應用加速器等諸多技術。

可以說,從技術層面來看,我們和全球高性能計算機領域技術最領先的國家也就三到五年的差距,取得了長足的進步,但離真正的成功還有一段路要走,這個真正的成功更多的是指市場的成功,是技術轉化為市場價值的成功。主要是如下原因:

1)、中國的民族服務器產(chǎn)業(yè)在全球乃至中國市場尚占非常少的比例,大約為世界總量的1%,中國服務器市場的30%(Source:IDC,2007),中國的高性能計算機市場大部分被國外跨國巨頭企業(yè)主導,在很多領域甚至是被壟斷,如金融、電信等諸多領域;

2)、中國高性能計算機產(chǎn)業(yè)良性生態(tài)環(huán)境尚未形成,其涉及芯片、操作系統(tǒng)、編譯器、并行計算環(huán)境、上層應用軟件、算法、存儲系統(tǒng)、交換系統(tǒng)等產(chǎn)業(yè)鏈各個環(huán)節(jié)的均衡發(fā)展,也涉及到技術、資金、人才、產(chǎn)業(yè)界、學術界等諸多環(huán)節(jié)的均衡發(fā)展、協(xié)調(diào)配合;

3)、中國在高性能計算機領域自主創(chuàng)新能力還很薄弱,國內(nèi)很多民族服務器企業(yè)還停留在OEM、ODM研發(fā)、貼牌銷售階段。
我國高性能計算機標準現(xiàn)狀

當前正面臨高性能計算機技術升級換代的關鍵時期,國外服務器企業(yè)正在抓緊制定和推出其自身的高性能計算機標準,從而打造從芯片、操作系統(tǒng)到基礎架構、存儲、交換、應用等全方位產(chǎn)業(yè)生態(tài)鏈,其中比較典型的產(chǎn)品就是刀片式服務器。

目前國際上尚無統(tǒng)一的高性能計算機標準,各大廠商都在推廣自己的標準,現(xiàn)在這個時候正是建立和健全中國高性能計算機標準體系的大好時機。加快高性能計算機領域標準化工作對中國未來服務器產(chǎn)業(yè)乃至信息產(chǎn)業(yè)的發(fā)展具有深遠的意義,這不僅關系著民族產(chǎn)業(yè)的發(fā)展,更關系著國家關鍵戰(zhàn)略應用領域的國防安全。

高性能計算機標準工作委員會(High Performance Computer Standardization Committee,以下簡稱高標委)自2007年3月成立以來,目前會員單位已經(jīng)發(fā)展到了三十多家,涉及芯片、操作系統(tǒng)、服務器、交換存儲、基礎架構等領域。

高標委至今已成立了刀片服務器標準工作組和服務器節(jié)能標準工作組,并和工業(yè)與信息化部電子技術標準化研究所聯(lián)合成立了服務器節(jié)能評測實驗室。當前由高標委起草的《機群操作系統(tǒng)遠程監(jiān)控技術要求》和《刀片服務器管理模塊技術要求》兩項電子行業(yè)標準即將進入公示期,如在公示期內(nèi)無重要反對意見,上述標準有望在年內(nèi)正式頒布,成為我國高性能計算機領域的首個行業(yè)推薦標準。

在上述兩項標準的基礎上,2008年高標委又組織申報了《刀片式服務器計算模塊電氣技術要求》、《刀片式服務器計算模塊固件技術要求》、《刀片式服務器計算模塊機械技術要求》、《高性能計算機高級內(nèi)存緩沖芯片(AMB)節(jié)能標準》、《服務器節(jié)能技術要求》等5項新的標準提案。

當前,高標委將以刀片服務器、節(jié)能及高性能計算機行業(yè)應用為重點,穩(wěn)步推動高性能計算機領域標準化工作,并將在今年籌備成立高性能計算機產(chǎn)業(yè)聯(lián)盟,希望從技術、標準、市場三個層面打造中國服務器產(chǎn)業(yè)的大生態(tài)。

結束語

高效能計算機技術的發(fā)展是一個長期的實踐過程,當前雖然學術界、工業(yè)界基于可重構計算、混合異構結構、高效能編程模型及編程語言、體系結構創(chuàng)新等相關技術手段有效提升了高性能計算機系統(tǒng)的效能,減少了中心機房面積、電能消耗、系統(tǒng)管理的一系列壓力,更好的滿足了應用需求,但我們必須看到,上述技術的突破與實現(xiàn)和高效能計算的總目標相比仍然有很大差距,不過是冰山一角而已,未來幾年高效能計算機技術仍將高速發(fā)展,發(fā)展過程中將孕育著新的機會和新的曙光,這就要求我們一方面需緊隨技術發(fā)展的步伐,另一方面,需加大技術標準化的投入力度,這兩個方面我們都不能放松,都必須加大投入,只有這樣才能迅速發(fā)展并壯大我國的民族服務器產(chǎn)業(yè),才能獲取中國乃至全球的服務器市場話語權。"兩岸猿聲啼不盡,輕舟已過萬重山", 讓我們緊隨高效能計算領域技術及標準發(fā)展的步伐!

分享到

adan

相關推薦