2023年是大模型高速發(fā)展的一年,大模型不斷擴大的參數(shù)規(guī)模和快速迭代的技術(shù)路線跨越式地提升了模型的能力,但是同時也為大模型的訓練和應用帶來了很多挑戰(zhàn)。比如算力利用率的瓶頸日益凸顯、算力成本壓力進一步增大、模型的構(gòu)建難度不斷提升、模型的行業(yè)落地更加復雜。
胡志強表示,為順應大模型時代對于云服務商的新要求,天翼云全面升級,構(gòu)建了全棧大模型智算服務,包括打造智算數(shù)據(jù)中心AIDC、升級云智超一體化基礎設施平臺“云驍”、推出一站式智算服務平臺“慧聚”、構(gòu)建國云大模型生態(tài),形成云智一體的智算服務體系。
整個體系的基石是智算基礎設施。針對AI高強度運算帶來的散熱問題,天翼云推出了液冷DC艙,融合定制化液冷智算服務器,實現(xiàn)低至1.12的PUE。與此同時,天翼云也將“云驍”升級成為云智超一體化基礎設施服務平臺,構(gòu)建了高性能RoCE網(wǎng)絡、并行文件存儲等服務;重點提升訓練加速、網(wǎng)絡加速等核心能力,同時升級了運維體系,實現(xiàn)對基礎設施的全面故障預測和感知。在國產(chǎn)化方面,“云驍”平臺率先在公有云加載天翼云RoCE網(wǎng)絡+國產(chǎn)GPU方案并實現(xiàn)商用。
在平臺層,天翼云發(fā)布大模型的一站式智算服務平臺“慧聚”?!盎劬邸逼脚_將大模型開發(fā)訓練過程中的關(guān)鍵流程、復雜技術(shù)和寶貴實踐經(jīng)驗進行總結(jié)和抽取,構(gòu)建出一站式全鏈路的大模型生產(chǎn)應用的流水線,大幅降低大模型訓練、微調(diào)、部署、推理的門檻,讓客戶能夠更專注于模型升級和應用落地。
在技術(shù)上,“慧聚”平臺成功突破了算子加速、模型并行、斷點續(xù)訓等技術(shù)難點,將高性能計算能力、分布式算力調(diào)度能力、訓練和推理多環(huán)節(jié)加速技術(shù)、高性能數(shù)據(jù)存儲技術(shù)進行封裝,穩(wěn)定性、訓練推理速度等核心指標大幅提升。
在功能上,“慧聚”平臺基于數(shù)據(jù)平臺、模型開發(fā)平臺、模型服務平臺和應用服務平臺四大平臺,提供數(shù)據(jù)準備、模型開發(fā)、任務管理、模型優(yōu)化等多個產(chǎn)品功能模塊,每個功能模塊又包含多級組件。功能與組件之間可以靈活組裝,幫助用戶打造針對不同場景的專屬工具集。
基于全新的基礎設施服務平臺“云驍”和智算服務平臺“慧聚”,天翼云已經(jīng)為大模型開發(fā)者、大模型提供者、應用廠商、政府與科研機構(gòu)、行業(yè)協(xié)會等合作伙伴提供多種生態(tài)模式支持。
依托國云智算底座,發(fā)揮國云安全優(yōu)勢,天翼云將與產(chǎn)業(yè)各方合作伙伴緊密協(xié)作,廣泛匯聚國內(nèi)外AI芯片伙伴、各類通用大模型及行業(yè)大模型伙伴及廣大開發(fā)者,共建繁榮的大模型創(chuàng)新生態(tài),攜手打造先進的智算生產(chǎn)力,全面賦能經(jīng)濟社會的數(shù)字化和智能化。