本次MLPerf? Storage v2.0參測企業(yè)(來源:MLCommons)
MLPerf? Storage v2.0在2023年0.5版本及2024年1.0版本6個訓練場景的基礎上,增加了4個基于不同規(guī)模llama3模型的checkpoint測試場景,覆蓋了從樣本加載、checkpoint保存與恢復等常見模型訓練場景的工作負載,全面測評圖像識別、科學計算等領域人工智能應用的存儲需求,確保評測結果具有廣泛的現(xiàn)實參考意義。
MLPerf? Storage v2.0 針對A100和H100兩種GPU分別定義了3D Unet 、ResNet50和CosmoFlow 3個模型下總計6類訓練測試場景,從下表中可以看到每個測試場景的模型簡介、訓練框架及測試條件等關鍵信息:
MLPerf? Storage v2.0中新增了4個Checkpoint測試場景,用于模擬 AI 模型訓練過程中的模型checkpoint保存與恢復工作負載。這些測試場景聚焦于checkpoint高帶寬寫入和讀取性能,覆蓋了不同規(guī)模模型訓練中常見的I/O模型,從下表中可以看到每個測試場景的參數(shù)規(guī)模、checkpoint測試數(shù)據(jù)量和典型場景等關鍵信息:
同時,為了保證測試結果的準確性和權威性,MLPerf? Storage v2.0制定了極其嚴格的測試準則,包括:
1. 高 GPU 利用率
·v2.0更加強調(diào)在訓練任務中存儲系統(tǒng)不應成為性能瓶頸:
·ResNet-50和3D UNet測試中,GPU利用率要求 >90%。
·CosmoFlow測試中,GPU利用率要求 >70%。
·在MLPerf? Storage v2.0中,允許使用更大規(guī)模的GPU模擬集群,進一步提高了對系統(tǒng)高帶寬與低延遲的要求。
2. 嚴禁緩存優(yōu)化
·主機側(cè)禁止任何數(shù)據(jù)緩存行為,以防影響存儲系統(tǒng)真實性能評估:
·測試前必須清空緩存(例如,使用 echo 3 > /proc/sys/vm/drop_caches命令清空緩存)。
·測試數(shù)據(jù)集至少5倍于主機內(nèi)存容量,確保數(shù)據(jù)真實從存儲中讀取。
·每輪測試之間必須重新加載數(shù)據(jù),防止隱性緩存。
3. 可重復性與審核機制
·多次執(zhí)行且連續(xù)成功(訓練任務5次、Checkpoint任務10次)。
·提交結果需附帶完整配置、日志與運行腳本。
·在MLCommons官網(wǎng)公開測試流程與硬件配置。
·所有測試結果均經(jīng)過官方及參與測試廠家交叉檢視。
為了深入理解 MLPerf? Storage 2.0基準測試內(nèi)容,我們先解釋幾個核心概念:
Accelerator Number(ACC NUM):模擬測試訓練GPU數(shù)量,衡量系統(tǒng)處理能力的規(guī)模;模擬測試訓練GPU數(shù)量越多,對存儲系統(tǒng)的讀寫帶寬和并發(fā)吞吐的壓力越大。
Accelerator Utilization(AU):測試過程中 GPU 的平均利用率(百分比),反映存儲系統(tǒng)是否能為GPU提供穩(wěn)定且持續(xù)的數(shù)據(jù)供給。如果利用率低,說明存儲性能可能成為瓶頸。
Accelerator Type: GPU類型,表示參與測試的GPU型號/架構,MLPerf? Storage v2.0測試目前支持模擬測試A100和H100兩種GPU類型。
Storage System Type:參與測試的存儲系統(tǒng)結構和介質(zhì)類型。MLPerf? Storage v2.0測試中覆蓋了以下存儲系統(tǒng)類型:
Storage System RU:存儲系統(tǒng)所占的物理空間,單位為 RU(Rack Unit,1RU = 1.75 英寸)。注:由于部分Cloud類型的參測廠商未反饋實際使用的存儲系統(tǒng)RU數(shù)據(jù),因此本文并未將這部分參測廠商的每存儲系統(tǒng)RU輸出帶寬納入對比。
基于上述指標維度,大家就可以對 MLPerf? Storage v2.0測試中各參測廠商的系統(tǒng)能力進行全面對比,例如:
·在滿足官方要求的GPU 利用率下,哪個存儲系統(tǒng)能支持更高的GPU數(shù)量及更高的業(yè)務帶寬?
·在相同訓練模型下,哪個存儲系統(tǒng)的性能密度更高,即存儲系統(tǒng)每RU輸出的讀、寫帶寬更高?
·在相同checkpoint模型下,哪個存儲系統(tǒng)的性能密度更高,即存儲系統(tǒng)每RU輸出的讀、寫帶寬更高?
·更高的性能密度,意味著相同節(jié)點數(shù)和機架空間下,系統(tǒng)可以支持更多 GPU 計算節(jié)點的訓練任務。
實力領跑!泛聯(lián)信息包攬MLPerf? Storage v2.0七項世界第一
泛聯(lián)信息(UBIX)作為國內(nèi)唯一全面參與 MLPerf? Storage v2.0 全部10項測試場景的創(chuàng)新型AI存儲廠商,在眾多國際領先參測企業(yè)中脫穎而出,斬獲其中7項世界第一的卓越成績。同時,在所參與的測試項目中,泛聯(lián)信息(UBIX)相較于1.0版本的核心測試指標,普遍實現(xiàn)了兩倍以上的性能提升,充分展現(xiàn)了其在AI存儲領域的技術實力與持續(xù)創(chuàng)新能力。
泛聯(lián)信息(UBIX)使用自研獨立知識產(chǎn)權的UbiPower18000全閃存儲產(chǎn)品參與測試。本次測試環(huán)境基于泛聯(lián)信息戰(zhàn)略合作伙伴新疆銀豐智能算力技術有限公司提供的優(yōu)質(zhì)AI算力、網(wǎng)絡平臺搭建。平臺整合高品質(zhì)的AI算力資源與高速網(wǎng)絡架構,為本次測試提供了穩(wěn)定可靠的基礎測試環(huán)境。在存儲介質(zhì)方面,泛聯(lián)信息選用了大普微 Roealsen? R6系列PCIe Gen5 NVMe SSD,該產(chǎn)品在整個測試過程中保持了超低的讀寫時延以及穩(wěn)定的讀寫帶寬,為高負載、密集型訓練場景提供了強有力的支撐。
本次UbiPower 18000測試環(huán)境包含3節(jié)點組成的UbiPower 18000分布式集群(每節(jié)點配置了16塊大普微Roealsen R6100 15.36TB NVMe SSD以及4張英偉達NVIDIA ConnectX-7 400Gbps IB網(wǎng)卡)、16臺GPU算力服務器以及一臺英偉達400G IB交換機,測試環(huán)境網(wǎng)絡拓撲如下圖所示:
UbiPower 18000測試拓撲圖
接下來,我們將對泛聯(lián)信息(UBIX)UbiPower 18000分布式全閃存在本次測試中的詳細性能數(shù)據(jù)進行深入解析,全面剖析其在智算訓練業(yè)務測試場景中的表現(xiàn)。讓我們一同見證這款面向智能計算場景全新設計的創(chuàng)新型 AI 分布式存儲系統(tǒng)所帶來的強勁性能沖擊與突破性價值。
ResNet50模型測試數(shù)據(jù)解析
在 ResNet-50 模型模擬測試中,測試系統(tǒng)模擬圖像分類任務,使用生成的 ImageNet 風格圖像數(shù)據(jù)集,并通過多并發(fā)讀取的 I/O 模型進行評估。在該測試場景下,僅由3個 2U存儲節(jié)點組成的UbiPower 18000分布式存儲系統(tǒng),成功支撐了模擬訓練中多達 2160張H100 GPU的數(shù)據(jù)吞吐需求,GPU利用率持續(xù)保持在90%以上,系統(tǒng)穩(wěn)定帶寬達到374.57GiB/s,對應每存儲系統(tǒng)RU的帶寬高達62.43 GiB/s。同時,該系統(tǒng)成功支持了3120張A100 GPU的模擬訓練需求,依然保持GPU利用率超過 90%,系統(tǒng)穩(wěn)定帶寬為280.77GiB/s,對應每RU帶寬高達46.8GiB/s。
在本測試模型下,UbiPower 18000無論在支持的GPU數(shù)量、系統(tǒng)總帶寬,還是每存儲RU帶寬,均為所有參測廠商中的最高值,充分展現(xiàn)了其在處理大規(guī)模數(shù)據(jù)集場景中的卓越能力。同時,在緊湊的空間占用下,提供了更高的性能密度,證明UbiPower 18000能在相同節(jié)點數(shù)和機架空間下,支持更多 GPU 計算節(jié)點的高效訓練任務,具備極強的可擴展性與部署效率。
CosmoFlow模型測試數(shù)據(jù)解析
該測試模型模擬的是科學計算類AI工作負載,測試模型根據(jù)計算節(jié)點內(nèi)存容量動態(tài)生成2.6MB大小的科學模擬數(shù)據(jù)文件,并采用并發(fā)讀取的I/O模型進行訓練評估。泛聯(lián)信息(UBIX)所使用的測試客戶端內(nèi)存配置為512GB,在此基礎上,測試程序共生成約1500多萬個科學模擬數(shù)據(jù)文件,在本項測試中數(shù)據(jù)集規(guī)模在所有參測廠商中也是最大的。在如此大規(guī)模的數(shù)據(jù)集條件下,UbiPower 18000分布式存儲系統(tǒng)依然展現(xiàn)出強勁的性能表現(xiàn):
·成功滿足了528張H100 GPU的模擬訓練帶寬需求,提供高達273.21 GiB/s 的穩(wěn)定帶寬,折合每存儲系統(tǒng) RU 帶寬為45.54 GiB/s;
·成功滿足了608張A100 GPU的模擬訓練帶寬需求,穩(wěn)定帶寬達到226.44 GiB/s,每存儲系統(tǒng) RU帶寬達37.74GiB/s。
在該測試模型下,UbiPower 18000在支持的GPU數(shù)量、系統(tǒng)總帶寬及每存儲系統(tǒng) RU帶寬等核心指標方面,均為所有參測廠商中的最高水平。即便在更大規(guī)模的數(shù)據(jù)集和更高的 I/O 壓力下,該系統(tǒng)依然支持遠超其他廠商的GPU數(shù)量與集群帶寬,充分體現(xiàn)了UbiPower 18000在科學計算類AI訓練負載場景下的優(yōu)異性能和出色的可擴展能力。
3D U-Net模型測試數(shù)據(jù)解析
該測試模型模擬醫(yī)學影像分割任務的典型工作負載,主要用于評估存儲系統(tǒng)在混合讀取模式及中等文件大小(約140MB)場景下的性能表現(xiàn)。在本模型下,UbiPower 18000 存儲系統(tǒng)也展現(xiàn)出了卓越的性能能力:
·面向336張A100 GPU的模擬訓練任務,系統(tǒng)成功滿足了高強度的數(shù)據(jù)吞吐需求;
·在訓練過程中,GPU利用率穩(wěn)定保持在90%以上;
·系統(tǒng)實現(xiàn)了高達455.05 GiB/s的穩(wěn)定帶寬輸出;
·折合每存儲系統(tǒng)RU帶寬達到75.84GiB/s。
在該測試模型下,UbiPower 18000 所支持的 GPU 數(shù)量、總帶寬及每存儲系統(tǒng) RU 帶寬均為所有參測廠商中的最高水平,充分展示了其在醫(yī)學影像類AI負載下的領先性能與強大適應性。
Llama3-405b模型測試數(shù)據(jù)解析
Llama3 405b模型模擬的是企業(yè)或高校在進行大規(guī)模模型訓練時,多個GPU服務器同時進行checkpoint數(shù)據(jù)讀寫的典型場景。在MLPerf? Storage v2.0測試中,該模型模擬了512路并發(fā)寫入、并發(fā)讀取,每輪總數(shù)據(jù)量達5.29TB的checkpoint數(shù)據(jù),重點評估存儲系統(tǒng)的讀、寫帶寬能力以及大規(guī)模計算集群下的并發(fā)訪問性能。
在該測試模型中,由3個2U存儲節(jié)點組成的UbiPower 18000存儲系統(tǒng)表現(xiàn)出色,每個存儲系統(tǒng)RU穩(wěn)定輸出50.5GiB/s的讀帶寬和36GiB/s的寫帶寬,其讀、寫帶寬密度在所有參測廠商中均為最高。
Llama3-1t模型測試數(shù)據(jù)解析
Llama3-1t模型模擬的是超大規(guī)模AI基礎設施場景下,多個GPU服務器并發(fā)進行 checkpoint的讀寫操作。該模型模擬了1024 路并發(fā)寫入和讀取,每輪總量高達18TB的checkpoint數(shù)據(jù),進一步提升了對存儲系統(tǒng)并發(fā)訪問能力和讀寫帶寬的考驗。
在此測試中,由 3 個2U存儲節(jié)點組成UbiPower 18000存儲系統(tǒng),每個 RU 穩(wěn)定輸出54.7GiB/s的讀帶寬和36.3GiB/s的寫帶寬,再次刷新了參測廠商中的讀寫帶寬密度記錄。
從 Llama3-405b與Llama3-1t 兩個checkpoint模型的測試結果來看,在高并發(fā)讀寫業(yè)務場景下,UbiPower 18000存儲系統(tǒng)展現(xiàn)出強大的帶寬吞吐能力:
·系統(tǒng)讀帶寬突破328GiB/s,寫帶寬超過218GiB/s
·每節(jié)點穩(wěn)定提供 100 GiB/s以上的讀帶寬、72 GiB/s以上的寫帶寬
這些數(shù)據(jù)充分證明了UbiPower 18000在大模型訓練過程中checkpoint保存與加載場景下的優(yōu)異性能表現(xiàn)。同時,隨著節(jié)點數(shù)量的線性擴展,該系統(tǒng)還能夠持續(xù)提升集群的整體讀寫帶寬,全面滿足大規(guī)模 AI 訓練對存儲系統(tǒng)的極致帶寬需求。
泛聯(lián)信息(UBIX):面向智算時代的存儲創(chuàng)新者
作為一家專注于 AI 存儲產(chǎn)品與解決方案的新興廠商,深圳市泛聯(lián)信息科技有限公司(UBIX Technology Co., Ltd.) 通過在存儲介質(zhì)應用、系統(tǒng)架構及軟件實現(xiàn)等方面的持續(xù)創(chuàng)新,成功研發(fā)出擁有自主知識產(chǎn)權的高性能分布式文件系統(tǒng) UBIXFS。
其核心技術包括:
·全固態(tài)分層資源池架構
·高并發(fā)、低時延分布式元數(shù)據(jù)服務集群
·基于RDMA網(wǎng)絡的多鏈路動態(tài)聚合高速傳輸協(xié)議
·CSN資源虛擬化及統(tǒng)一調(diào)度
上述創(chuàng)新顯著提升了存儲系統(tǒng)整體性能,有效支撐智算、超算場景對存儲系統(tǒng)的嚴苛需求,成為推動 AI 技術發(fā)展與落地的關鍵支撐力量。
目前,泛聯(lián)信息(UBIX)創(chuàng)新AI存儲產(chǎn)品已在多個超算中心和智算中心實現(xiàn)商用部署,廣泛應用于數(shù)據(jù)預處理、海量數(shù)據(jù)訪問、大規(guī)模checkpoint讀寫等關鍵場景,并在科研、高性能計算(HPC)、以及文本、圖像、視頻、多模態(tài)大模型訓練等任務中展現(xiàn)出優(yōu)異的性能表現(xiàn)。
展望未來,泛聯(lián)信息將持續(xù)深耕 AI 存儲領域,圍繞高性能、高可靠性、智能化三大方向不斷加大研發(fā)投入,持續(xù)優(yōu)化系統(tǒng)架構與軟件能力,推出更多面向大模型訓練、智算與超算中心的領先產(chǎn)品與解決方案,助力全球用戶高效應對 AI 時代的存儲挑戰(zhàn)。