萬卡集群主要應用于需要大規(guī)模計算能力的場景,如人工智能模型的訓練和推理、大數(shù)據(jù)分析、科學研究等。它們能夠顯著加速AI技術(shù)的研發(fā)和應用,推動AI技術(shù)的創(chuàng)新和發(fā)展,并促進AI技術(shù)的普及和推廣。
一、萬卡集群的相關(guān)企業(yè)布局
在當今的人工智能時代,萬卡集群已成為各大科技企業(yè)競爭的重要領(lǐng)域,眾多企業(yè)紛紛投入到萬卡集群的建設與布局中。
國際科技巨頭
Google:推出了超級計算機A3 Virtual Machines,擁有26000塊Nvidia H100 GPU,同時基于自研芯片搭建TPUv5 p8960卡集群,在人工智能的基礎(chǔ)研究和應用開發(fā)方面擁有強大的算力支持。
Meta:早在2022年就推出了擁有16000塊Nvidia A100的AI研究超級集群(AI Research Super Cluster),2024年初又公布了2個24576塊Nvidia H100集群,為其下一代生成式AI模型的訓練提供了堅實的基礎(chǔ),有力地推動了Meta在人工智能領(lǐng)域的研究和應用。
微軟:作為全球軟件巨頭,微軟也在積極布局萬卡集群,將其應用于人工智能的研發(fā)和應用中,為其旗下的人工智能產(chǎn)品和服務提供強大的算力支持。
亞馬遜:亞馬遜的AWS云服務在全球范圍內(nèi)擁有廣泛的用戶基礎(chǔ),為了滿足用戶對人工智能算力的需求,亞馬遜也在不斷加強其在萬卡集群方面的建設和投入。
特斯拉:馬斯克的xAI宣布了2024年最大的一筆60億美元B輪融資,計劃建造一個名為“超級算力工廠”的設施,為下一版本Grok提供強大的算力支持,這個計劃使用多達10萬個GPU來訓練,預計2025年秋天之前投入運行。
國內(nèi)企業(yè)
通信運營商
中國移動:今年將商用哈爾濱、呼和浩特、貴陽三個自主可控萬卡集群,總規(guī)模近6萬張GPU卡,作為國家算力基礎(chǔ)設施建設的重要力量,中國移動積極推動萬卡集群的建設,為我國人工智能產(chǎn)業(yè)的發(fā)展提供了強大的算力支持。
中國電信:上半年在上海規(guī)劃建設到達15000卡、總算力超4500P的國產(chǎn)萬卡算力池,是國內(nèi)首個超大規(guī)模國產(chǎn)算力液冷集群,也是業(yè)內(nèi)領(lǐng)先的全國產(chǎn)化云智一體公共智算中心。此外,中國電信京津冀萬卡液冷智算集群還入選了全國一體化算力網(wǎng)應用優(yōu)秀案例。
中國聯(lián)通:上海臨港國際云數(shù)據(jù)中心在今年內(nèi)將建成中國聯(lián)通首個萬卡集群。
互聯(lián)網(wǎng)企業(yè)
字節(jié)跳動:搭建了一個12288卡Ampere架構(gòu)訓練集群,并研發(fā)了Megascale生產(chǎn)系統(tǒng)用于訓練大語言模型,該系統(tǒng)在提高算力利用率和訓練效率方面取得了顯著成果。
螞蟻集團:在去年透露已建成萬卡異構(gòu)算力集群,為其在人工智能領(lǐng)域的業(yè)務發(fā)展提供了有力的支持。
騰訊:推出的高性能網(wǎng)絡星脈,具備業(yè)界最高的3.2T通信帶寬,為AI大模型帶來10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬卡GPU的超大計算規(guī)模。
AI初創(chuàng)企業(yè)和硬件廠商
摩爾線程:發(fā)布了一款兼具“超大規(guī)模+高通用性+生態(tài)兼容”的國產(chǎn)GPU萬卡集群解決方案——“夸娥萬卡智算集群”,標志著國產(chǎn)GPU正式邁入萬卡時代。
華為:2023年宣布昇騰AI集群全面升級,集群規(guī)模從4000卡集群擴展至16000卡,是業(yè)界首個萬卡AI集群,擁有更快的訓練速度和30天以上的穩(wěn)定訓練周期。
二、萬卡集群的技術(shù)挑戰(zhàn)
萬卡集群的構(gòu)建并非簡單地將大量GPU卡堆疊在一起,而是面臨著諸多技術(shù)挑戰(zhàn):
1、效率問題
通信開銷:訓練大語言模型并非簡單的并行任務,在萬卡集群中,GPU之間需要頻繁通信以協(xié)同推進訓練進程。大量的通信數(shù)據(jù)在網(wǎng)絡中傳輸會帶來較大的延遲和開銷,影響訓練效率。例如,在張量并行和流水線并行的過程中,設備間需要頻繁地交換數(shù)據(jù)和同步參數(shù),這對網(wǎng)絡帶寬和延遲提出了極高的要求。
計算與存儲平衡:大模型的訓練需要大量的計算資源和存儲資源。在萬卡集群中,如何合理地分配計算任務和存儲資源,使得GPU在進行計算時能夠快速地獲取所需的數(shù)據(jù),避免因數(shù)據(jù)傳輸和存儲瓶頸導致的計算等待,是一個需要解決的問題。此外,隨著模型規(guī)模的不斷增大,模型參數(shù)的存儲需求也會急劇增加,如何有效地管理和利用GPU的顯存以及外部存儲設備,也是提高效率的關(guān)鍵。
操作符優(yōu)化:操作符是構(gòu)成模型計算的基本單元,對操作符的優(yōu)化能夠提高計算效率。在萬卡集群中,需要對諸如矩陣乘法、卷積等常用操作符進行優(yōu)化,減少計算過程中的冗余操作和內(nèi)存訪問,提高GPU的利用率。同時,對于一些復雜的操作符,如LayerNorm和Gelu等,需要進行融合操作,以減少內(nèi)核啟動的開銷。
2、穩(wěn)定性問題
硬件故障:萬卡集群由大量的硬件設備組成,硬件故障的概率較高。在訓練過程中,單個GPU卡、服務器、網(wǎng)絡設備等的故障都可能導致訓練任務的中斷或失敗。而且,由于集群規(guī)模龐大,故障的定位和排查也變得非常困難,需要耗費大量的時間和精力。
軟件兼容性:萬卡集群涉及到多個層次的軟件系統(tǒng),包括操作系統(tǒng)、驅(qū)動程序、訓練框架、分布式通信庫等。這些軟件之間的兼容性問題可能會導致系統(tǒng)的不穩(wěn)定,例如驅(qū)動程序與訓練框架的不兼容可能會導致GPU無法正常工作,分布式通信庫的版本不兼容可能會導致通信異常。
數(shù)據(jù)一致性:在分布式訓練中,多個GPU同時對模型參數(shù)進行更新,需要保證數(shù)據(jù)的一致性。如果數(shù)據(jù)同步不及時或出現(xiàn)錯誤,可能會導致模型的訓練結(jié)果不準確,甚至使訓練過程無法收斂。因此,需要設計有效的數(shù)據(jù)同步機制和一致性校驗算法,確保數(shù)據(jù)的正確性和一致性。
3、可擴展性問題
網(wǎng)絡拓撲:隨著集群規(guī)模的不斷擴大,網(wǎng)絡拓撲結(jié)構(gòu)的設計變得至關(guān)重要。傳統(tǒng)的網(wǎng)絡拓撲結(jié)構(gòu)可能無法滿足萬卡集群的需求,需要設計更加高效、靈活的網(wǎng)絡拓撲,以降低網(wǎng)絡延遲和通信開銷,提高網(wǎng)絡的可擴展性。例如,胖樹拓撲結(jié)構(gòu)在小規(guī)模集群中應用廣泛,但在萬卡集群中,需要對其進行改進和優(yōu)化,以降低成本和提高性能。
資源管理:萬卡集群中的資源管理非常復雜,需要對GPU、CPU、內(nèi)存、網(wǎng)絡等資源進行統(tǒng)一的管理和調(diào)度。如何根據(jù)訓練任務的需求,動態(tài)地分配和調(diào)整資源,提高資源的利用率,同時保證各個任務之間的隔離性和安全性,是一個具有挑戰(zhàn)性的問題。
系統(tǒng)升級:隨著技術(shù)的不斷發(fā)展,萬卡集群需要不斷地進行升級和維護。如何在不影響現(xiàn)有訓練任務的情況下,對系統(tǒng)進行升級和擴展,是一個需要解決的問題。例如,在添加新的GPU卡或更新軟件系統(tǒng)時,需要確保系統(tǒng)的穩(wěn)定性和兼容性。
三、萬卡集群的技術(shù)探索
為了應對萬卡集群的技術(shù)挑戰(zhàn),企業(yè)和研究機構(gòu)在不斷地進行技術(shù)探索和創(chuàng)新:
1、算法優(yōu)化
并行算法改進:研究人員不斷探索新的并行算法和策略,以提高模型訓練的效率和可擴展性。例如,采用自適應的混合并行策略,根據(jù)模型的特點和硬件資源的情況,自動地選擇數(shù)據(jù)并行、張量并行和流水線并行的比例,以達到最佳的訓練效果。
模型壓縮:為了減少模型的存儲需求和計算量,研究人員采用模型壓縮技術(shù),如量化、剪枝等。量化技術(shù)將模型參數(shù)的精度降低,減少存儲和計算開銷;剪枝技術(shù)則去除模型中的冗余參數(shù),提高模型的計算效率。
優(yōu)化器改進:優(yōu)化器是模型訓練中的重要組成部分,對訓練速度和模型性能有著重要的影響。研究人員不斷改進優(yōu)化器算法,如采用更高效的自適應學習率算法、引入二階優(yōu)化算法等,提高模型的訓練速度和收斂性。
2、系統(tǒng)架構(gòu)優(yōu)化
分布式通信優(yōu)化:通過對分布式通信框架的優(yōu)化,減少通信延遲和開銷。例如,優(yōu)化集體通信群的初始化過程,縮短通信初始化的時間;采用高效的通信協(xié)議和算法,提高通信的效率和可靠性。
硬件加速:利用硬件加速技術(shù),如FPGA、ASIC等,對模型的計算過程進行加速。這些硬件加速器具有較高的并行度和計算效率,能夠有效地提高模型的訓練速度。同時,與GPU相比,它們的功耗更低,能夠降低系統(tǒng)的能耗。
液冷技術(shù):萬卡集群的能耗非常高,散熱問題是一個關(guān)鍵的挑戰(zhàn)。液冷技術(shù)能夠有效地降低服務器的溫度,提高系統(tǒng)的穩(wěn)定性和可靠性。同時,液冷技術(shù)還能夠降低數(shù)據(jù)中心的能耗,減少運營成本。
3、智能化運維
故障預測和自動恢復:利用機器學習和大數(shù)據(jù)分析技術(shù),對萬卡集群的運行狀態(tài)進行實時監(jiān)測和分析,預測潛在的故障,并提前采取措施進行預防。同時,當故障發(fā)生時,能夠自動地進行故障定位和恢復,縮短故障恢復的時間,提高系統(tǒng)的可用性。
資源智能調(diào)度:通過對訓練任務的特點和資源需求的分析,實現(xiàn)資源的智能調(diào)度和分配。例如,根據(jù)任務的優(yōu)先級、計算量、所需資源等因素,自動地將任務分配到合適的GPU上進行計算,提高資源的利用率和系統(tǒng)的整體性能。
性能優(yōu)化建議:基于對系統(tǒng)運行數(shù)據(jù)的分析,為用戶提供性能優(yōu)化建議,幫助用戶調(diào)整模型參數(shù)、訓練策略等,以提高模型的訓練效率和性能。
結(jié)語
總之,萬卡集群是人工智能領(lǐng)域的重要發(fā)展方向,具有巨大的應用潛力。然而,萬卡集群的構(gòu)建和應用面臨著諸多技術(shù)挑戰(zhàn),需要企業(yè)和研究機構(gòu)不斷地進行技術(shù)探索和創(chuàng)新,以推動萬卡集群技術(shù)的不斷發(fā)展和應用。