中國地質大學(武漢)云計算平臺是由曙光5000A在基礎架構上進行了創(chuàng)新和改進,采用HPP(Hyper Parallel Processing)體系架構,融合了Cluster和MPP兩種計算機的優(yōu)勢;曙光5000A的計算節(jié)點以TC2600系列刀片產品為主,也可以配置曙光其他服務器產品。既可以使用全限速無阻塞的Infiniband 網絡構建通訊網絡,也可以使用冗余萬兆級聯(lián)的分區(qū)無阻塞Ethernet互聯(lián)網絡;配置存儲系統(tǒng),既可以配置簡單易用的DAS存儲,又可以構建高性能的FC或Infiniband SAN存儲,提供較高的聚合I/O帶寬等。
計算子系統(tǒng)高性能計算節(jié)點部分共包括92個曙光CB65-F刀片服務器,共提供了736個2.6GHz處理器核心和1.5TB內存,另外還提供了兩臺胖計算節(jié)點,具備超強的計算能力,理論峰值運算速度高達8.87Tflops(每秒8.87萬億次浮點運算)。
曙光提供的存儲子系統(tǒng)硬件部分是基于目前業(yè)界領先的高速Infiniband互聯(lián)之上的全局共享并行IO架構,包括4個數據服務器、1個元數據服務器、一套12T的一級實時存儲和一套二級備份存儲,軟件部分基于成熟的Lustre并行文件系統(tǒng),數據塊分散存儲于4個存儲管理節(jié)點,降低數據丟失風險。和曙光集群管理軟件結合,對文件系統(tǒng)部署、文件系
統(tǒng)管理、文件系統(tǒng)快速恢復提供良好支持。(下圖為存儲結構示意圖)
由于地質學的特殊性,曙光為其云計算平臺設計了三套互聯(lián)網絡!基于Infiniband的高速通信網絡和基于千兆管理維護網絡和千兆作業(yè)調度網絡,IB網絡和千兆以太網專網專用并互為備份。
管理診斷子系統(tǒng)和高集成度硬件控制單元也是此套方案亮點之一,新一代曙光5000A超級計算機系統(tǒng)具備業(yè)界最為完善的管理、診斷系統(tǒng)設計。全新管理平臺包括內嵌于服務器節(jié)點的高集成度服務器硬件控制單元以及功能全面的管理軟件系統(tǒng)Gridview HPC 2.0
服務器硬件控制單元集成了IPMI2.0、KVM over IP、虛擬媒體、散熱控制以及電源管理等功能,能夠對服務器節(jié)點實現硬件級別的全面資源管理。服務器硬件控制單元完全獨立于操作系統(tǒng),通過RJ45端口接入千兆管理網絡,配合Gridview管理軟件實現對全部硬件資源的統(tǒng)一監(jiān)控和管理。
大規(guī)模視頻切換系統(tǒng)基于SKVM over IP技術,支持本地視頻維護以及基于網絡的遠程診斷,并具備極強的擴展能力,是目前業(yè)界作為領先的視頻管理解決方案。
圖為GRIDVIEW管理界面
除了安全性能,在散熱設計上為了滿足中國地質大學(武漢)超高密的系統(tǒng)散熱要求,服務器內部設計了多處專用散熱通道,每個通道保障不同部件的散熱。通過獨立散熱通道,對部分發(fā)熱量的部件形成隔離空間,強制形成前后空氣對流,避免對周圍部件的散熱影響。整個系統(tǒng)風扇采用冗余結構設計、能快速識別并能快速更換損壞風扇,有效保障系統(tǒng)的穩(wěn)定性和系統(tǒng)良好運行環(huán)境。
中國地質大學(武漢)學院采用92臺刀片式服務器CB65-F作為計算節(jié)點,峰值性能達到8.87Tflops。
CB65-F是曙光公司最新研發(fā)的新一代刀片式服務器產品,并專為HPC進行優(yōu)化設計,單節(jié)點linpack效率超過80%。其在國內擁有大量部署,如下圖所示為CB65-F的系統(tǒng)結構圖,兩顆處理器通過AMD Hypertransport總線直接實現互聯(lián),互聯(lián)帶寬高達8GB/s。每個處理器通過集成的內存控制器訪問四通道內存系統(tǒng)。南橋芯片基于高性能的HT2100,實現2個高速PCIEx8和2個千兆以太網擴展。
除上述硬件外,中國地質大學武漢學院選用曙光8-way 64位服務器A950系統(tǒng)作為胖計算節(jié)點。共采用2臺曙光8-way A950服務器、16顆AMD 64位2.5GHz shanghai CPU構建胖計算節(jié)點,提供640G flops的主頻峰值計算能力。曙光A950的優(yōu)勢在于CPU以及內存的擴展能力,系統(tǒng)支持最多達32個CPU的并行編程,并行支持所有的編程模式(共享變量和消息傳遞),具有極高的編程可移植性。同時系統(tǒng)64位和32位的全方位的支持使得其再開發(fā)和使用高性能計算機軟件更加容易,可移植性更強。8P系統(tǒng)中采用交叉互聯(lián)架構實現相距最遠的兩顆處理器之間最大hops數由直連架構4跳減為3跳,由此大大降低了CPU訪存時延:
中國地質大學(武漢)分院表示:學院云計算平臺的建立,對我國地質勘探等研究領域的貢獻不可估量。感謝曙光高性能計算在地質研究領域多年來積累的豐富經驗,正是出色的技術實力和行業(yè)經驗的結合,幫助了中國地質大學(武漢)云計算平臺的搭建與實際應用的需求。