色婷婷亚洲六月婷婷中文字幕,又色又爽又黄的视频女女,综合无码一区二区三区四区五区

本次MLPerf? Storage v2.0參測企業(yè)（來源：MLCommons）

MLPerf? Storage v2.0在2023年0.5版本及2024年1.0版本6個訓練場景的基礎上，增加了4個基于不同規(guī)模llama3模型的checkpoint測試場景，覆蓋了從樣本加載、checkpoint保存與恢復等常見模型訓練場景的工作負載，全面測評圖像識別、科學計算等領域人工智能應用的存儲需求，確保評測結果具有廣泛的現(xiàn)實參考意義。

MLPerf? Storage v2.0 針對A100和H100兩種GPU分別定義了3D Unet 、ResNet50和CosmoFlow 3個模型下總計6類訓練測試場景，從下表中可以看到每個測試場景的模型簡介、訓練框架及測試條件等關鍵信息：

MLPerf? Storage v2.0中新增了4個Checkpoint測試場景，用于模擬 AI 模型訓練過程中的模型checkpoint保存與恢復工作負載。這些測試場景聚焦于checkpoint高帶寬寫入和讀取性能，覆蓋了不同規(guī)模模型訓練中常見的I/O模型，從下表中可以看到每個測試場景的參數(shù)規(guī)模、checkpoint測試數(shù)據(jù)量和典型場景等關鍵信息：

同時，為了保證測試結果的準確性和權威性，MLPerf? Storage v2.0制定了極其嚴格的測試準則，包括：

1. 高 GPU 利用率

·v2.0更加強調(diào)在訓練任務中存儲系統(tǒng)不應成為性能瓶頸：

·ResNet-50和3D UNet測試中，GPU利用率要求＞90%。

·CosmoFlow測試中，GPU利用率要求＞70%。

·在MLPerf? Storage v2.0中，允許使用更大規(guī)模的GPU模擬集群，進一步提高了對系統(tǒng)高帶寬與低延遲的要求。

2. 嚴禁緩存優(yōu)化

·主機側(cè)禁止任何數(shù)據(jù)緩存行為，以防影響存儲系統(tǒng)真實性能評估：

·測試前必須清空緩存（例如，使用 echo 3 > /proc/sys/vm/drop_caches命令清空緩存）。

·測試數(shù)據(jù)集至少5倍于主機內(nèi)存容量，確保數(shù)據(jù)真實從存儲中讀取。

·每輪測試之間必須重新加載數(shù)據(jù)，防止隱性緩存。

3. 可重復性與審核機制

·多次執(zhí)行且連續(xù)成功（訓練任務5次、Checkpoint任務10次）。

·提交結果需附帶完整配置、日志與運行腳本。

·在MLCommons官網(wǎng)公開測試流程與硬件配置。

·所有測試結果均經(jīng)過官方及參與測試廠家交叉檢視。

為了深入理解 MLPerf? Storage 2.0基準測試內(nèi)容，我們先解釋幾個核心概念：

Accelerator Number（ACC NUM）：模擬測試訓練GPU數(shù)量，衡量系統(tǒng)處理能力的規(guī)模；模擬測試訓練GPU數(shù)量越多，對存儲系統(tǒng)的讀寫帶寬和并發(fā)吞吐的壓力越大。

Accelerator Utilization（AU）：測試過程中 GPU 的平均利用率（百分比），反映存儲系統(tǒng)是否能為GPU提供穩(wěn)定且持續(xù)的數(shù)據(jù)供給。如果利用率低，說明存儲性能可能成為瓶頸。

Accelerator Type: GPU類型，表示參與測試的GPU型號/架構，MLPerf? Storage v2.0測試目前支持模擬測試A100和H100兩種GPU類型。

Storage System Type：參與測試的存儲系統(tǒng)結構和介質(zhì)類型。MLPerf? Storage v2.0測試中覆蓋了以下存儲系統(tǒng)類型：

Storage System RU：存儲系統(tǒng)所占的物理空間，單位為 RU（Rack Unit，1RU = 1.75 英寸）。注：由于部分Cloud類型的參測廠商未反饋實際使用的存儲系統(tǒng)RU數(shù)據(jù)，因此本文并未將這部分參測廠商的每存儲系統(tǒng)RU輸出帶寬納入對比。

基于上述指標維度，大家就可以對 MLPerf? Storage v2.0測試中各參測廠商的系統(tǒng)能力進行全面對比，例如：

·在滿足官方要求的GPU 利用率下，哪個存儲系統(tǒng)能支持更高的GPU數(shù)量及更高的業(yè)務帶寬？

·在相同訓練模型下，哪個存儲系統(tǒng)的性能密度更高，即存儲系統(tǒng)每RU輸出的讀、寫帶寬更高？

·在相同checkpoint模型下，哪個存儲系統(tǒng)的性能密度更高，即存儲系統(tǒng)每RU輸出的讀、寫帶寬更高？

·更高的性能密度，意味著相同節(jié)點數(shù)和機架空間下，系統(tǒng)可以支持更多 GPU 計算節(jié)點的訓練任務。

實力領跑！泛聯(lián)信息包攬MLPerf? Storage v2.0七項世界第一

泛聯(lián)信息（UBIX）作為國內(nèi)唯一全面參與 MLPerf? Storage v2.0 全部10項測試場景的創(chuàng)新型AI存儲廠商，在眾多國際領先參測企業(yè)中脫穎而出，斬獲其中7項世界第一的卓越成績。同時，在所參與的測試項目中，泛聯(lián)信息（UBIX）相較于1.0版本的核心測試指標，普遍實現(xiàn)了兩倍以上的性能提升，充分展現(xiàn)了其在AI存儲領域的技術實力與持續(xù)創(chuàng)新能力。

泛聯(lián)信息（UBIX）使用自研獨立知識產(chǎn)權的UbiPower18000全閃存儲產(chǎn)品參與測試。本次測試環(huán)境基于泛聯(lián)信息戰(zhàn)略合作伙伴新疆銀豐智能算力技術有限公司提供的優(yōu)質(zhì)AI算力、網(wǎng)絡平臺搭建。平臺整合高品質(zhì)的AI算力資源與高速網(wǎng)絡架構，為本次測試提供了穩(wěn)定可靠的基礎測試環(huán)境。在存儲介質(zhì)方面，泛聯(lián)信息選用了大普微 Roealsen? R6系列PCIe Gen5 NVMe SSD，該產(chǎn)品在整個測試過程中保持了超低的讀寫時延以及穩(wěn)定的讀寫帶寬，為高負載、密集型訓練場景提供了強有力的支撐。

本次UbiPower 18000測試環(huán)境包含3節(jié)點組成的UbiPower 18000分布式集群（每節(jié)點配置了16塊大普微Roealsen R6100 15.36TB NVMe SSD以及4張英偉達NVIDIA ConnectX-7 400Gbps IB網(wǎng)卡）、16臺GPU算力服務器以及一臺英偉達400G IB交換機，測試環(huán)境網(wǎng)絡拓撲如下圖所示：

UbiPower 18000測試拓撲圖

接下來，我們將對泛聯(lián)信息（UBIX）UbiPower 18000分布式全閃存在本次測試中的詳細性能數(shù)據(jù)進行深入解析，全面剖析其在智算訓練業(yè)務測試場景中的表現(xiàn)。讓我們一同見證這款面向智能計算場景全新設計的創(chuàng)新型 AI 分布式存儲系統(tǒng)所帶來的強勁性能沖擊與突破性價值。

ResNet50模型測試數(shù)據(jù)解析

在 ResNet-50 模型模擬測試中，測試系統(tǒng)模擬圖像分類任務，使用生成的 ImageNet 風格圖像數(shù)據(jù)集，并通過多并發(fā)讀取的 I/O 模型進行評估。在該測試場景下，僅由3個 2U存儲節(jié)點組成的UbiPower 18000分布式存儲系統(tǒng)，成功支撐了模擬訓練中多達 2160張H100 GPU的數(shù)據(jù)吞吐需求，GPU利用率持續(xù)保持在90%以上，系統(tǒng)穩(wěn)定帶寬達到374.57GiB/s，對應每存儲系統(tǒng)RU的帶寬高達62.43 GiB/s。同時，該系統(tǒng)成功支持了3120張A100 GPU的模擬訓練需求，依然保持GPU利用率超過 90%，系統(tǒng)穩(wěn)定帶寬為280.77GiB/s，對應每RU帶寬高達46.8GiB/s。

在本測試模型下，UbiPower 18000無論在支持的GPU數(shù)量、系統(tǒng)總帶寬，還是每存儲RU帶寬，均為所有參測廠商中的最高值，充分展現(xiàn)了其在處理大規(guī)模數(shù)據(jù)集場景中的卓越能力。同時，在緊湊的空間占用下，提供了更高的性能密度，證明UbiPower 18000能在相同節(jié)點數(shù)和機架空間下，支持更多 GPU 計算節(jié)點的高效訓練任務，具備極強的可擴展性與部署效率。

CosmoFlow模型測試數(shù)據(jù)解析

該測試模型模擬的是科學計算類AI工作負載，測試模型根據(jù)計算節(jié)點內(nèi)存容量動態(tài)生成2.6MB大小的科學模擬數(shù)據(jù)文件，并采用并發(fā)讀取的I/O模型進行訓練評估。泛聯(lián)信息（UBIX）所使用的測試客戶端內(nèi)存配置為512GB，在此基礎上，測試程序共生成約1500多萬個科學模擬數(shù)據(jù)文件，在本項測試中數(shù)據(jù)集規(guī)模在所有參測廠商中也是最大的。在如此大規(guī)模的數(shù)據(jù)集條件下，UbiPower 18000分布式存儲系統(tǒng)依然展現(xiàn)出強勁的性能表現(xiàn)：

·成功滿足了528張H100 GPU的模擬訓練帶寬需求，提供高達273.21 GiB/s 的穩(wěn)定帶寬，折合每存儲系統(tǒng) RU 帶寬為45.54 GiB/s；

·成功滿足了608張A100 GPU的模擬訓練帶寬需求，穩(wěn)定帶寬達到226.44 GiB/s，每存儲系統(tǒng) RU帶寬達37.74GiB/s。

在該測試模型下，UbiPower 18000在支持的GPU數(shù)量、系統(tǒng)總帶寬及每存儲系統(tǒng) RU帶寬等核心指標方面，均為所有參測廠商中的最高水平。即便在更大規(guī)模的數(shù)據(jù)集和更高的 I/O 壓力下，該系統(tǒng)依然支持遠超其他廠商的GPU數(shù)量與集群帶寬，充分體現(xiàn)了UbiPower 18000在科學計算類AI訓練負載場景下的優(yōu)異性能和出色的可擴展能力。

3D U-Net模型測試數(shù)據(jù)解析

該測試模型模擬醫(yī)學影像分割任務的典型工作負載，主要用于評估存儲系統(tǒng)在混合讀取模式及中等文件大小（約140MB）場景下的性能表現(xiàn)。在本模型下，UbiPower 18000 存儲系統(tǒng)也展現(xiàn)出了卓越的性能能力：

·面向336張A100 GPU的模擬訓練任務，系統(tǒng)成功滿足了高強度的數(shù)據(jù)吞吐需求；

·在訓練過程中，GPU利用率穩(wěn)定保持在90%以上；

·系統(tǒng)實現(xiàn)了高達455.05 GiB/s的穩(wěn)定帶寬輸出；

·折合每存儲系統(tǒng)RU帶寬達到75.84GiB/s。

在該測試模型下，UbiPower 18000 所支持的 GPU 數(shù)量、總帶寬及每存儲系統(tǒng) RU 帶寬均為所有參測廠商中的最高水平，充分展示了其在醫(yī)學影像類AI負載下的領先性能與強大適應性。

Llama3-405b模型測試數(shù)據(jù)解析

Llama3 405b模型模擬的是企業(yè)或高校在進行大規(guī)模模型訓練時，多個GPU服務器同時進行checkpoint數(shù)據(jù)讀寫的典型場景。在MLPerf? Storage v2.0測試中，該模型模擬了512路并發(fā)寫入、并發(fā)讀取，每輪總數(shù)據(jù)量達5.29TB的checkpoint數(shù)據(jù)，重點評估存儲系統(tǒng)的讀、寫帶寬能力以及大規(guī)模計算集群下的并發(fā)訪問性能。

在該測試模型中，由3個2U存儲節(jié)點組成的UbiPower 18000存儲系統(tǒng)表現(xiàn)出色，每個存儲系統(tǒng)RU穩(wěn)定輸出50.5GiB/s的讀帶寬和36GiB/s的寫帶寬，其讀、寫帶寬密度在所有參測廠商中均為最高。

Llama3-1t模型測試數(shù)據(jù)解析

Llama3-1t模型模擬的是超大規(guī)模AI基礎設施場景下，多個GPU服務器并發(fā)進行 checkpoint的讀寫操作。該模型模擬了1024 路并發(fā)寫入和讀取，每輪總量高達18TB的checkpoint數(shù)據(jù)，進一步提升了對存儲系統(tǒng)并發(fā)訪問能力和讀寫帶寬的考驗。

在此測試中，由 3 個2U存儲節(jié)點組成UbiPower 18000存儲系統(tǒng)，每個 RU 穩(wěn)定輸出54.7GiB/s的讀帶寬和36.3GiB/s的寫帶寬，再次刷新了參測廠商中的讀寫帶寬密度記錄。

從 Llama3-405b與Llama3-1t 兩個checkpoint模型的測試結果來看，在高并發(fā)讀寫業(yè)務場景下，UbiPower 18000存儲系統(tǒng)展現(xiàn)出強大的帶寬吞吐能力：

·系統(tǒng)讀帶寬突破328GiB/s，寫帶寬超過218GiB/s

·每節(jié)點穩(wěn)定提供 100 GiB/s以上的讀帶寬、72 GiB/s以上的寫帶寬

這些數(shù)據(jù)充分證明了UbiPower 18000在大模型訓練過程中checkpoint保存與加載場景下的優(yōu)異性能表現(xiàn)。同時，隨著節(jié)點數(shù)量的線性擴展，該系統(tǒng)還能夠持續(xù)提升集群的整體讀寫帶寬，全面滿足大規(guī)模 AI 訓練對存儲系統(tǒng)的極致帶寬需求。

泛聯(lián)信息（UBIX）：面向智算時代的存儲創(chuàng)新者

作為一家專注于 AI 存儲產(chǎn)品與解決方案的新興廠商，深圳市泛聯(lián)信息科技有限公司（UBIX Technology Co., Ltd.）通過在存儲介質(zhì)應用、系統(tǒng)架構及軟件實現(xiàn)等方面的持續(xù)創(chuàng)新，成功研發(fā)出擁有自主知識產(chǎn)權的高性能分布式文件系統(tǒng) UBIXFS。

其核心技術包括：

·全固態(tài)分層資源池架構

·高并發(fā)、低時延分布式元數(shù)據(jù)服務集群

·基于RDMA網(wǎng)絡的多鏈路動態(tài)聚合高速傳輸協(xié)議

·CSN資源虛擬化及統(tǒng)一調(diào)度

上述創(chuàng)新顯著提升了存儲系統(tǒng)整體性能，有效支撐智算、超算場景對存儲系統(tǒng)的嚴苛需求，成為推動 AI 技術發(fā)展與落地的關鍵支撐力量。

目前，泛聯(lián)信息（UBIX）創(chuàng)新AI存儲產(chǎn)品已在多個超算中心和智算中心實現(xiàn)商用部署，廣泛應用于數(shù)據(jù)預處理、海量數(shù)據(jù)訪問、大規(guī)模checkpoint讀寫等關鍵場景，并在科研、高性能計算（HPC）、以及文本、圖像、視頻、多模態(tài)大模型訓練等任務中展現(xiàn)出優(yōu)異的性能表現(xiàn)。

展望未來，泛聯(lián)信息將持續(xù)深耕 AI 存儲領域，圍繞高性能、高可靠性、智能化三大方向不斷加大研發(fā)投入，持續(xù)優(yōu)化系統(tǒng)架構與軟件能力，推出更多面向大模型訓練、智算與超算中心的領先產(chǎn)品與解決方案，助力全球用戶高效應對 AI 時代的存儲挑戰(zhàn)。

分享到

崔歡歡

相關推薦

近期文章

熱門標簽