阿里云提交的論文名為《Scaling Large Production Clusters with Partitioned Synchronization》(PDF版),探討了飛天如何解決大規(guī)模計算資源的調度問題,被收錄并榮獲最佳論文獎,這也是ATC最佳論文首次出現(xiàn)中國公司的身影。飛天是阿里云自研的超大規(guī)模云計算操作系統(tǒng),可將遍布全球的百萬級服務器連成一臺超級計算機,以在線公共服務的方式為社會提供計算能力。飛天的核心服務包括分布式計算、存儲、數(shù)據(jù)庫、網絡等,本次獲獎的論文就是其中的資源調度服務。

據(jù)悉,阿里云提交的關于飛天分布式調度系統(tǒng)“fuxi2.0”是阿里學術合作創(chuàng)新研究計劃(AIR)與香港中文大學James cheng老師的項目成果。該論文討論了業(yè)界分布式調度架構資源沖突嚴重和調度性能差的問題,創(chuàng)造性地提出了一套資源沖突解決機制,實現(xiàn)了調度器在集群規(guī)模上的可擴展性,同時保證極佳的調度性能和調度效果,支撐了飛天大數(shù)據(jù)平臺MaxCompute單集群10萬節(jié)點的規(guī)模,4萬作業(yè)/秒的并發(fā)能力。

云計算最核心的問題是如何把成千上萬,甚至更大規(guī)模的機器高效地組織起來,靈活進行任務調度和管理,使用戶可以像使用一臺機器一樣使用云計算。隨著數(shù)據(jù)和計算量越來越大,云計算場景也變得超大規(guī)?;?,以前傳統(tǒng)的基于中心架構的調度器受限于單點處理能力,無法在規(guī)模上實現(xiàn)可擴展。

阿里云計算平臺事業(yè)部研究員關濤表示:“分布式系統(tǒng)領域有一個說法,每當規(guī)模擴大一個數(shù)量級,就變成了一個全新的問題。規(guī)模、利用率和公平性是調度系統(tǒng)的三個核心,本次的論文基于阿里云飛天系統(tǒng)的部分工作,在不損失利用率和公平性的情況下,探索調度系統(tǒng)在超大規(guī)模的可擴展性能力”。

近幾年,飛天操作系統(tǒng)多項研究成果被國際頂會錄取:2019年,數(shù)據(jù)調度論文Yugong被數(shù)據(jù)庫頂級會議VLDB錄??;2020年,機器學習&單機調度論文AntMan被操作系統(tǒng)頂級會議OSDI錄取;2021年,計算調度論文Fangorn被數(shù)據(jù)庫頂級會議VLDB錄取。

分享到

xiesc

相關推薦