隨著技術的進步,保持時延與帶寬平衡
為證明技術的發(fā)展,有必要比較以下不同存儲介質隨時間推移的相對帶寬性能改善和時延改進?;贒avid Patterson的一項關鍵研究,圖1將固態(tài)盤數(shù)據(jù)點添加到Patterson的“時延滯后帶寬”圖表中1。Patterson指出,從歷史上看,帶寬改進的速度通常要比時延快得多。根據(jù)摩爾定律,晶體管的數(shù)量在穩(wěn)步增加2 ,同時多核架構在不斷演進。
這些改進使得處理器可以處理更多指令,同時與上一代處理器相比,可以在相同或更短的時間內處理更多數(shù)據(jù)。但隨著CPU處理時間的縮短,從硬盤獲取數(shù)據(jù)的時延并沒有相應地縮短。這導致存儲技術成為整體性能的瓶頸。對于內存和存儲技術來說,可以通過并行性來增加帶寬,但訪問該技術的時間相對恒定。因此,只有引入新技術才能實現(xiàn)更低時延。
要理解為什么這很重要,就要考慮當時延減少、帶寬增加時會發(fā)生什么。通常,對于內存和存儲資源來說,訪問一個單元的數(shù)據(jù)不足以填充從內存到處理器的路徑,即帶寬乘以時延(帶寬時延乘積)大于訪問尺寸。在可能的情況下,為了充分利用資源的帶寬,會明確把軟件編寫為“并行請求更大或更多的數(shù)據(jù)塊”。隨著帶寬時延產品的增長,越來越少的算法能夠在請求足夠數(shù)據(jù)的同時來滿足時延要求。然而在無法支持的情況下,則會影響系統(tǒng)帶寬和性能。從最簡單的層面來說,這就是為什么擁有一個平衡的帶寬/時延比很重要。
回顧圖1,基于NAND的 固態(tài)盤的引入在一段時間內提供了一個平衡的帶寬/時延解決方案,它們的時延比硬盤低得多?;A訪問時間從硬盤的幾毫秒縮短到NAND 固態(tài)盤的不到100微秒,這意味著等待數(shù)據(jù)所花費的CPU周期更少。由于許多應用能夠經常訪問NAND 固態(tài)盤的全部帶寬,因此處理速度以肉眼可見的速度提高了。隨著時間的推移,帶寬不斷增加,而時延則保持相對恒定,帶寬的加倍使得系統(tǒng)再次失衡。
以下示例演示了如何使用英特爾傲騰技術部署低時延英特爾傲騰數(shù)據(jù)中心級固態(tài)硬盤,從而提高VMware vSAN 等超融合基礎架構解決方案的性能和容量。
英特爾傲騰技術將vSAN性能和容量提升到新的高度
企業(yè)業(yè)務和云服務提供商可利用英特爾傲騰技術,以非常經濟的方式來提高虛擬服務器上運行的應用的性能。Evaluator Group的分析報告指出,英特爾至強可擴展處理器與英特爾傲騰技術和含NVM Express(NVMe)的英特爾3D NAND 固態(tài)盤相結合,可以為各種運行在使用VMware vSAN的超融合系統(tǒng)上的常見負載提供更好的性能3。
如圖2所示,與運行NAND 固態(tài)盤存儲介質的系統(tǒng)相比,運行VMware vSAN 6.7的系統(tǒng)(采用英特爾至強可擴展處理器和英特爾傲騰數(shù)據(jù)中心級固態(tài)盤)可顯著提升性能。采用英特爾傲騰技術和英特爾3D NAND 固態(tài)盤構建的系統(tǒng)能夠支持最多1.6倍的虛擬機,同時仍可以為每個虛擬機保持相同的服務水平協(xié)議。
這相當于每個系統(tǒng)可多支持60%以上的用戶,這對于盈利和業(yè)務增長非常重要。由于英特爾至強可擴展處理器、VMware vSAN 6.7以及結合使用的高效英特爾3D NAND 固態(tài)盤與英特爾傲騰數(shù)據(jù)中心級固態(tài)硬盤提高了虛擬機密度、降低了基礎設施成本,從而帶來了明顯的成本效益。
研究得出的結論是,由于舊的存儲技術無法滿足虛擬機的輸入/輸出(I/O)需求,所以舊系統(tǒng)的性能較低。本質上,由多個活躍虛擬機驅動的高I/O負載導致NAND 固態(tài)盤備份大量工作,從而增加了數(shù)據(jù)時延,直到無法再維持虛擬機所需的服務水平協(xié)議。
VMware vSAN的例子展示了一種“通過部署英特爾傲騰數(shù)據(jù)中心級固態(tài)盤來彌合數(shù)據(jù)中心內存與存儲層級之間差距”的方法。經常訪問英特爾傲騰技術網站,了解企業(yè)如何使用英特爾技術,更好地滿足現(xiàn)代數(shù)據(jù)中心的需求。
新的內存和存儲架構
英特爾傲騰技術可以在系統(tǒng)中扮演多種角色。如前所示,英特爾傲騰數(shù)據(jù)中心級固態(tài)盤可以利用標準PCIe NVMe接口連接到系統(tǒng),通過平衡的帶寬/時延來加速重要的數(shù)據(jù)中心應用。在這種形式下,空閑平均時延大約為10微秒,而NAND 固態(tài)盤則超過80微秒4 。圖3顯示了系統(tǒng)硬件和軟件時延。英特爾傲騰數(shù)據(jù)中心級固態(tài)盤的硬件時延與系統(tǒng)堆棧軟件時延大致相同,為系統(tǒng)帶來了另一種平衡。即使在高負載下,始終如一的低時延以及高耐用性使這些固態(tài)盤成為快速緩存或分層熱數(shù)據(jù)的理想選擇。
英特爾傲騰技術現(xiàn)在也可作為直接插入DIMM插槽的英特爾傲騰數(shù)據(jù)中心級持久性內存模塊使用。與DRAM DIMM不同,英特爾傲騰數(shù)據(jù)中心級持久內存具有持久性和更大的容量(每個模塊最高可達512 GB)。如圖3所示,使用英特爾傲騰數(shù)據(jù)中心級持久內存進行數(shù)據(jù)訪問的時延要比使用英特爾傲騰數(shù)據(jù)中心級固態(tài)盤小得多。
英特爾傲騰數(shù)據(jù)中心級持久內存可以直接從應用訪問,而不涉及操作系統(tǒng)存儲堆棧,因此不再需要軟件開銷。對于持久內存,空閑平均讀取時延下降到100到340納秒。5相較之前提到的帶寬時延產品的低時延,由于時延較低,因此可以使用較小的單元尺寸、一條高速緩存線訪問該內存,同時仍然提供其全部帶寬。因此,英特爾傲騰數(shù)據(jù)中心級持久內存是一種高速緩存線路可訪問、高性能、持久的存儲——是一種真正獨特的新資源。
鑒于其高性能和持久性,英特爾傲騰數(shù)據(jù)中心級持久內存構成了另一個新的數(shù)據(jù)存儲層,可以用各種方式來彌合容量與性能之間的系統(tǒng)差距。這種靈活性使企業(yè)可以構建能更好滿足現(xiàn)代工作負載的處理和內存需求的數(shù)據(jù)中心,例如,英特爾傲騰數(shù)據(jù)中心級持久內存可顯著提高內存數(shù)據(jù)庫的容量。而且,由于持久性內存是非易失性的,因此不需要在數(shù)據(jù)庫重新啟動后將數(shù)據(jù)重新加載到內存中,從而提高了可服務性和系統(tǒng)正常運行時間,并改進了業(yè)務連續(xù)性。
結論
在計算系統(tǒng)中,內存和存儲層級結構把更頻繁訪問的數(shù)據(jù)放在更靠近處理器的位置,同時把占多數(shù)的數(shù)據(jù)移動到遠離處理器、更便宜的內存中(時延更高)。內存和存儲技術的固有時延往往會隨著時間的推移而緩慢下降,而處理器的性能會以更快的速度提升。這將有效地把這些內存移到離處理器更遠的位置,因此,處理器需要花費更多指令周期等待數(shù)據(jù)。只有引入新的低時延內存技術以及新的、更緊密集成的系統(tǒng)集成點,才能使系統(tǒng)恢復平衡。
隨著英特爾傲騰技術的引入,英特爾為系統(tǒng)提供了一個新的內存來彌合DRAM與NAND固態(tài)盤之間的差距。作為固態(tài)盤和持久內存,全新英特爾傲騰技術使計算機架構師能夠將大型持久數(shù)據(jù)結構離處理器更近,從而盡量縮短等待數(shù)據(jù)的時間并加快應用執(zhí)行。當系統(tǒng)架構師平衡好帶寬需求和低延時,就釋放了CPU的強大功能。通過英特爾傲騰技術恢復帶寬與時延之間的平衡,CPU現(xiàn)在可以快速消耗和處理數(shù)據(jù),從而達到最佳系統(tǒng)性能。
英特爾院士:Frank Hady博士
Frank Hady是英特爾院士兼英特爾非易失性內存解決方案事業(yè)部(NSG)傲騰系統(tǒng)首席架構師。 Frank負責研究和定義英特爾傲騰技術產品及其與計算系統(tǒng)的集成。Frank曾擔任英特爾領先的平臺I/O架構師,為英特爾QuickAssist技術(英特爾 QAT)提供研究基礎,并推動了平臺性能顯著提升。他撰寫或聯(lián)合撰寫了30多篇關于網絡、存儲和I/O創(chuàng)新主題的論文,并經常發(fā)表關于內存和存儲的文章。他擁有30多項美國專利。Frank獲得弗吉尼亞大學的電子工程學士和碩士學位,并擁有馬里蘭大學電子工程博士學位。