AI大模型加速演進(jìn),帶動(dòng)“存力”重構(gòu)

AI發(fā)展的本質(zhì)推動(dòng)不僅是“算力升級”,更是“數(shù)據(jù)流重構(gòu)”。從ChatGPT-1到GPT-4,其模型參數(shù)量和訓(xùn)練數(shù)據(jù)體量增長了8倍,未來面向ChatGPT-X代模型,這一數(shù)字甚至可能有50倍的增長。支撐大模型成長的,是指數(shù)級膨脹的數(shù)據(jù)量和日趨嚴(yán)苛的數(shù)據(jù)處理效率要求。

與此同時(shí),大模型從應(yīng)用角度還面臨算力的三大痛點(diǎn):

算力需求大:例如從GPT-3到Llama-3,從開始使用3640 PD(每天完成的的千萬億次浮點(diǎn)運(yùn)算量petaflop/day)到421875 PD,計(jì)算量增長約116倍;

計(jì)算效率低:高昂的GPU資源往往無法充分利用,帶來極大浪費(fèi);

能耗壓力大:以訓(xùn)練10萬億參數(shù)模型為例,需用10萬張H100、運(yùn)行1193天,耗電40億千瓦時(shí),相當(dāng)于1.4億美國家庭一天的用電量。

內(nèi)存方面,在AI模型高度運(yùn)算趨勢下,訓(xùn)練過程對內(nèi)存的依賴性也日益增加。據(jù)SK海力士數(shù)據(jù)顯示,BERT時(shí)期僅5%的計(jì)算為內(nèi)存密集型任務(wù),而到GPT-3已高達(dá)92%。內(nèi)存雖然在擴(kuò)容,但工藝發(fā)展受限,因此可以看到大家對使用堆疊技術(shù)、容量密度高的HBM的需求增長迅速,還有顯存與服務(wù)器內(nèi)存需求也在不斷增加。

再看閃存存儲部分,AI服務(wù)器的算力單元成本里大概有60%-90%是計(jì)算單元,也就是GPU。而我們要做的就是活用算力單元,讓它的使用率變高,降本增效。閃存存儲方面需要承擔(dān)的是避免停機(jī)的存儲穩(wěn)定性,還有高性能,讓GPU務(wù)盡其用,以及節(jié)能和節(jié)省物理空間。

AI訓(xùn)練與推理全流程的存儲需求剖析

從AI大模型的訓(xùn)練和推理角度來看存儲。AI數(shù)據(jù)流的推動(dòng)過程包括數(shù)據(jù)提取、準(zhǔn)備(清洗、向量化)、模型訓(xùn)練(含檢查點(diǎn)和恢復(fù))、量化、微調(diào)、推理(結(jié)合RAG抓取實(shí)時(shí)資料)以及推理結(jié)果歸檔。整個(gè)流程與存儲密切相關(guān),不同階段對存儲的需求有所不同。

例如,數(shù)據(jù)處理、訓(xùn)練、微調(diào)使用閃存為介質(zhì)的固態(tài)硬盤,數(shù)據(jù)攝取、歸檔通常搭配機(jī)械式硬盤(對象存儲層),而且中間使用全閃存層作為緩存,既滿足冷數(shù)據(jù)管理,也支撐熱數(shù)據(jù)吞吐。

而且在模型訓(xùn)練階段,存儲的核心任務(wù)是提供訓(xùn)練數(shù)據(jù)來充分利用GPU資源,并保護(hù)訓(xùn)練投資。存儲的關(guān)鍵能力包括高讀取帶寬(以減少GPU等待時(shí)間)、快速寫入檢查點(diǎn)數(shù)據(jù)(以便在系統(tǒng)崩潰時(shí)快速恢復(fù))以及易于擴(kuò)展。

推理階段則需要高可靠性和短讀取時(shí)間,以支持安全存儲和高效批量處理。

在模型訓(xùn)練過程中,檢查點(diǎn)寫入器也與存儲高度相關(guān),用于保存中間數(shù)據(jù)以防止系統(tǒng)崩潰導(dǎo)致的訓(xùn)練中斷。以175B參數(shù)模型為例,檢查點(diǎn)大小約為2.45TB。若在2小時(shí)內(nèi)完成2.5%的寫入時(shí)間(180秒),則存儲頻寬至少需達(dá)到13.6GB/s。也就是說在評估存儲媒介時(shí),必須確保足夠的頻寬以滿足訓(xùn)練需求。

檢查點(diǎn)恢復(fù)部分同理,175B的參數(shù)模型,欲恢復(fù)的模型參數(shù)與暫態(tài)數(shù)據(jù)大小約為2.45TB。假設(shè)模型是16個(gè)實(shí)例并行數(shù)據(jù)讀取,希望5小時(shí)內(nèi)把數(shù)據(jù)寫回來,就需要頻寬是2.18GB/s,對存儲的吞吐能力和穩(wěn)定性提出了硬性要求。

在推理的存儲架構(gòu)中,需存儲微調(diào)前后的模型數(shù)據(jù),以及RAG數(shù)據(jù)。同時(shí),推理完成后將提示詞輸入和結(jié)果輸出寫入存儲。以往數(shù)據(jù)直接寫入HDD(冷盤),但為提升用戶體驗(yàn),需引入硬盤緩存數(shù)據(jù),將提示詞輸入和結(jié)果輸出存儲在SSD上,以便后續(xù)相似問題可直接從緩存獲取結(jié)果,避免重復(fù)推理。例如,128K輸入的首次Token延遲可從13秒降至500毫秒。因此,大容量SSD是理想的存儲媒介。更適用于云端和一體機(jī),可提升速度和用戶體驗(yàn)。

從終端設(shè)備到邊緣端,再到公共云混合型數(shù)據(jù)中心,整個(gè)流程涉及數(shù)據(jù)收集、模型訓(xùn)練、推理、信息收集和參數(shù)調(diào)整。大模型訓(xùn)練的數(shù)據(jù)需要結(jié)合RAG或?qū)崟r(shí)資料進(jìn)行更新,RAG數(shù)據(jù)庫可部署在邊緣端、核心數(shù)據(jù)中心或公共云。在落地應(yīng)用時(shí),需要進(jìn)行整體規(guī)劃,確保全流程的無縫銜接,從而提升系統(tǒng)效率和用戶體驗(yàn)。

銓興科技:應(yīng)對AI存儲挑戰(zhàn)的創(chuàng)新實(shí)踐

在AI訓(xùn)練與推理領(lǐng)域,銓興推出一系列企業(yè)級SSD產(chǎn)品與解決方案,以應(yīng)對行業(yè)挑戰(zhàn)。

在企業(yè)級SSD產(chǎn)品方面,推出QLC PCIe 5.0企業(yè)級SSD,其最高容量達(dá)122.88TB,接口支持PCIe 5.0,還支持Dual Port,可靠性達(dá)10負(fù)18次方級別,適用于緩存、向量數(shù)據(jù)庫RAG存儲。其超高讀速,超高容量,是AI 推理的最佳存儲搭檔

高速TLC PCIe 5.0 SSD單盤容量達(dá)30.72TB,適合模型訓(xùn)練、HPC計(jì)算等高IO需求場景。其高讀寫效能的表現(xiàn),是AI訓(xùn)練/HPC的存儲優(yōu)先選項(xiàng)

高DWPD SATA SSD在SATA接口上實(shí)現(xiàn)最高15.36TB容量與3 DWPD寫入耐久,遠(yuǎn)超行業(yè)平均0.5-1DWPD的功能特性。

在AI訓(xùn)練一體機(jī)解決方案上,銓興帶來添翼AI擴(kuò)容卡方案。該方案有效解決大模型訓(xùn)練中“顯存不夠、成本太高”的痛點(diǎn),原本訓(xùn)練DeepSeek-R1 671B模型需168張頂級GPU,使用16張中端GPU加上8張?zhí)硪頂U(kuò)容卡就能完成同等訓(xùn)練,成本從4200萬降至200萬以內(nèi),降低約90%。另外,單張GPU卡PC加1張?zhí)硪砜捎?xùn)練14B模型,四張GPU卡工作站加2張?zhí)硪砜蛇_(dá)72B模型。

該方案已廣泛適配英偉達(dá)、天數(shù)智芯、沐曦等國產(chǎn)顯卡,并與廈門大學(xué)、貴州大學(xué)、廣州大學(xué)等高校合作部署實(shí)測,適用于要求高精度、全參數(shù)、70B及更大模型微調(diào)訓(xùn)練的本地化部署等場景。

最后

邱創(chuàng)隆強(qiáng)調(diào),大模型時(shí)代不僅需要更強(qiáng)的中心計(jì)算能力,更需要覆蓋終端、邊緣、公有云的多層級協(xié)同存儲體系。

無論是實(shí)時(shí)抓取RAG數(shù)據(jù)庫、還是模型分發(fā)/回寫、還是訓(xùn)練檢查點(diǎn)的寫入恢復(fù),都需要高性能、高容量、低功耗的存儲設(shè)備提供強(qiáng)力支撐。 

分享到

崔歡歡