尊敬的各位領導、各位專家、各位朋友,大家好!我是清華大學計算機系鄭緯民,很高興來參加本次論壇,今天我想分享關于AI算力的幾點思考。
第一個思考,中國在人工智能領域相較于其他國家的優(yōu)勢。我們知道人工智能三架馬車,大數據、算法、算力。在大數據領域,國內的大數據應用做得更具優(yōu)勢。在算法與算力方面,我們與一些國家還存在差距。在算法上面,一些領先算法面世后,我們具備快速跟進的能力,而在算力上面,差距不容易快速追趕,這方面的落后嚴重制約了我國AI領域的發(fā)展。
第二個思考,關于人工智能四類應用場景。根據場景可以將人工智能這些行業(yè)應用分為四大類,第一類應用是圖像視頻的檢測類應用,這個以卷積網絡為核心,可以應用到安防、醫(yī)療診斷、自動駕駛,城市治理等等。應該說這一類已經很好的應用效果,落地的很好。
第二類決策類應用。以強化學習技術為核心,應用于交通規(guī)劃、精準行銷、個性化推薦。我們比較熟悉的案例是AlphaGo,前幾年它在和圍棋手比賽當中獲勝,因此這一類應用中的部分場景已初見成效。
第三類是自然語言類應用,以Transformer技術為核心,應用于多種語言的翻譯,智能交互,文學創(chuàng)作、搜索推薦等等。隨著自然語言處理大模型的出現,現在逐步成熟。我想特別強調,自然語言類型這一類應用需要很大的機器和非常大的計算力。
第四類,AI與科學融合應用。人工智能與科學計算深度融合可以解決前沿科學問題,如蛋白質結構的預測,這是AI與科學計算融合的最典型的應用,我們也叫它AI For Science。我們看自然語言模型最近幾年發(fā)展非常迅猛,這個大模型具備很強的文本生成能力。一個文本數據經過預訓練以后產生一個很多參數的一個模型,使用的時候輸入一個“人工智能讓世界變得”,就出來“更美好”,給定了個起始文本以后,生成的文本把后面沒輸進來的都生成出來了,因此大模型能做機器回答、情感分析、信息抽取、文案生成、物體識別。
我們說人工智能正快速走向更大模型的發(fā)展,所以人工智能技術的推進過程中,處理的問題參數越多,處理效果就越好。因此我們2018年的GPT1有1.1億的參數,到了2020年7月,GPT3是1750億個參數。我們的鵬程. 盤古是2000億個參數,悟道2.0是清華大學做的,有1.75萬億個參數,跟人類越來越接近,應該說每3、4個月它需要的計算機算力又翻了一倍。
我們因此說大模型訓練需要更大規(guī)模的系統,剛才說了差不多是每3、4個月需要的計算機算力又擴大一倍。
第三個思考問題,HPC超算系統與AI算力系統。我們說存在兩類高性能計算機,一類我們覺得是HPC超算系統,它是解決科學與工程計算,比如說天氣預報、核聚變模擬、飛行設計等等。它的運算精度是雙精度浮點運算,128位加減乘除,因此編程是MPI加C++,或者MPI加Fortran,指標是HPL、HPCG。而AI算力系統就是人工智能計算機,它的解決問題是分類回歸、自然語言處理。因此它的運算精度是半精度運算,32位16位甚至是到8位的定點數,編程語言框架也不一樣,MindSpore、TensorFlow等等。指標也不一樣,有的計算模式也不一樣,傳統的科學計算、HPC超算以CPU算力為主,人工智能計算機以AI專用處理器為主,一直我都說,我們的神威太湖之光就是典型的HPC,我們鵬城云腦II,武漢人工智能計算中心,這是典型的人工智能計算機。應該說這兩類系統還是不一樣的,一個解決傳統科學計算問題,一個解決人工智能問題。
但是AI For Science一來,使得傳統的科學計算跟當前的AI這兩個機器要融合,我們看HPC和AI盡管有不同點。但是對訪存、高性能網絡和存儲的需求是類似的,不同精度的計算單元如果能一定程度的復用,就給處理器層面同時支持。AI For Science出現使得HPC程序也包含AI算法,意識到HPC跟AI融合成為剛需需求。因此我們從歷史上來看也是,浮點運算在1990年代的時候X86還是個可選件,后續(xù)整個會進入到通用CPU。因此我們說,這兩個機器融合在一塊,既可以解決一切HPC問題,又解決AI問題。我估計三年四年,會出現這樣的新型機器。
我說一下鵬城實驗室的鵬城云腦,這臺機器應該說是解決人工智能問題是非常好的一個機器,現在鵬城云腦II有4096塊卡,專門做人工智能問題的。網絡設備也是比較好,存儲設備也非常好,因此基本是做人工智能問題,但是也初步實現了AI與數字超算融合的這個模式,我們不久的將來,再過兩年會出現鵬城云腦III,它會把這兩個人工智能問題跟HPC問題結合得更好。
我國有能力以全棧自主創(chuàng)新的技術構筑人工智能計算中心,我們說做一個人工智能計算機做一個人工智能計算中心,一種辦法直接使用西方的成熟技術,還有什么辦法呢?在開源技術上進行修改。我們主張從頭構建先進的技術能力,從頭什么意思呢?就是全是自己做,先進的我們做出來的,硬件也好軟件也好,是世界上先進的,這個實際上我們也應該能做得到,我們這個產業(yè)界與學術界的協同加速基礎技術從頭先進,你看我們鴻蒙、歐拉、昇思這些都是華為做的,都是從頭開始做且先進的。我們清華大學時序數據庫、圖計算系統、文件系統MadFS,我覺得也是我們都從頭開始做,世界先進水平的。一直到我們對人工智能領域,我們有能力從頭做,做先進的。包括IO處理器,操作系統,異構計算框架,AI框架,資源調度引擎,深度學習平臺,全棧技術自主創(chuàng)新,我們有信心把它做好。
那我們說第四個思考問題,通過合理的基準測試,以實際的業(yè)務性能來評價系統性能。我們說一個人工智能計算機做出來了,怎么來評價它是好的呢還是不好的,因此我們需要一個人工智能算力基準測序程序。用這測試程序來評價這臺機器好還是不好,因此我們可以考慮這個問題,公眾需要一個簡單的指標來回答,我們這個測試軟件最后出來的是一個比較簡單的,不用太復雜的,就出來一個數據,這個數據越高表示這臺機器處理人工智能就越好,因此現在目前傳統的高性能機器測試結果與人工智能需要的性能不完全一致,過去HPC有專門的Benchmark,但是沒法應用當前的人工智能計算機。因此我們需要做這么一個Benchmark,說起來容易,做起來也很費勁,包括可擴展性,還有反映人工智能問題。
我們清華大學跟鵬城實驗室合作,做了一個叫AIPerf這個Benchmark,來測試人工智能計算機性能好還是不好?,F在我們公布了兩輪AIPerf成為世界的標準,人工智能計算機都用這個來測試,我們在去年跟今年兩次在世界上發(fā)布,AIPerf的Top500,去年鵬城實驗室的鵬城云腦II是第一名,今年還是第一名。我們到現在的不斷增加,我們直接用國際化,這是一個Benchmark來測試,另外一個以實際的性能來衡量更重要。
第五個思考問題,是武漢人工智能計算中心成為全國人工智能發(fā)展樹立標桿。武漢人工智能計算中心,科研成果落地了兩個產業(yè)聯盟,一個是遙感測繪產業(yè)聯盟,還有一個多模態(tài)產業(yè)聯盟,這兩個聯盟拒絕了很多單位來做這個事兒。一直到100多家企業(yè)入駐,孵化出50多個解決方案,一直到賦能行業(yè)應用,加速智能升級。另外一個,我們這個武漢人工智能計算中心,吸引了很多人進來,吸引了中科院自動化所、清華大學等多家科研院所落地武漢,因此武漢人工智能計算中心成為了我們的標桿。
第六個,我有是一個思考問題是隨著各地算力基礎設施發(fā)展完善,算力聯盟形成統一的調度是大趨勢。什么意思呢?就是人工智能算力基礎設施我們很多了,我們武漢有、深圳有、西安有、鄭州有、成都有,這些機器我們有沒有可能把它統一成一個大的算力,把它連起來,變成一個統一調度,不僅是能解決大問題,還有一個對于我們國家來說符合雙碳目標,碳達標,碳中和也是有好處的。我們把有些問題盡可能多的到西部去計算,因為西部的能源就好一點,因此這也是一個發(fā)展趨勢。