伊人久久综在合线亚洲2019,四虎成人精品在永久在线,樱桃熟了a级毛片

默認的default_loader會是什么行為呢？我們再來看，通常情況下，default_loader會調用pil_loader方法：

那pil_loader怎么讀數據的呢？謎底即將揭曉：

這就是最典型的Python直接訪問文件系統(tǒng)文件的open方法，所以很明顯，PyTorch會默認通過文件接口訪問數據。如果需要通過其它存儲接口調用ImageFolder，還需要為其編寫特定的loader，這就增加了額外不必要的開發(fā)工作量。

因此，從AI應用框架的角度看，文件接口是最友好的存儲訪問方式。

讀多寫少，高吞吐，低延時

AI數據特點是讀多寫少，要求高吞吐、低延時。深度學習過程訓練中，需要對數據進行訓練，以視覺識別為例，它需要加載數千萬張，甚至上億張圖片，針對圖片使用卷積神經網絡、ResNet等算法，生成識別的模型。完成一輪訓練后，為了減少圖片輸入順序的相關性對訓練結果帶來的影響，會將文件次序打亂之后，重新加載，訓練多個輪次（每個輪次稱之為epoch）。這就意味著每個epoch都需要根據新的順序加載數千萬、上億張圖片。圖片的讀取速度，即延時，對完成訓練過程的時間長短會造成很大影響。

前面提到，對象存儲和文件存儲都可以為GPU集群提供共享的數據訪問，那么哪個存儲接口能提供更低的延時呢？業(yè)界領先的國際水準的高性能對象存儲，讀延時約為9ms，而高性能文件系統(tǒng)延時通常為2-3ms，考慮到數億張圖片的n次加載，這個差距會被放大到嚴重影響AI訓練效率。

從文件加載的角度看，高性能文件系統(tǒng)在延時特性上，也成為AI的首選。

IO Pattern復雜

大文件、小文件，順序讀、隨機讀混合場景。不同的業(yè)務類型所對應的數據具有不同特點，例如視覺識別，通常處理的是100KB以下的小文件；語音識別，大多數1MB以上的大文件，對這些獨立的文件，采用的是順序讀。而有的算法工程師，會將幾十萬、甚至千萬個小文件聚合成一個數百GB，甚至TB級別的大文件，在每個epoch中，根據框架隨機生成的序列，對這些大文件進行隨機讀。

在無法預測文件大小、IO類型的背景下，對復雜IO特征的高性能支持，也是AI業(yè)務對存儲的需求。

AI業(yè)務容器化

AI應用業(yè)務逐步向Kubernetes容器平臺遷移，數據訪問自然要讓AI業(yè)務在容器平臺中最方便地使用。理解這一點非常容易，在業(yè)務單機運行的時代，數據放在直通到服務器的磁盤上，稱之為DAS模式。到了業(yè)務運行在多物理機組成的集群時代，為了統(tǒng)一管理和方便使用數據，數據存放在SAN陣列上。到云時代，數據跟著放到了云上，放到了適合云訪問的分布式存儲、對象存儲里。由此可見，數據總是需要通過業(yè)務訪問最方便的方式進行存放和管理。那么到了容器時代、云原生時代，數據自然應該放到云原生應用訪問和管理最方便的存儲上。

運行平臺向公有云發(fā)展

公有云成為AI業(yè)務更青睞或首選的運行平臺，而公有云原生的存儲方案更面向通用型應用，針對AI業(yè)務的高吞吐、低延時、大容量需求，存在一定欠缺。AI業(yè)務大多具有一定的潮汐性，公有云彈性和按需付費的特性，再加上公有云高性能GPU服務器產品的成熟及使用，使公有云的計算資源成為了AI業(yè)務降本增效的首選。而與AI業(yè)務相配套，具有前面所述特點的公有云存儲方案，卻仍然缺失。近年來，我們看到一些國外的存儲廠商（例如NetApp、Qumulo、ElastiFile等），將其產品發(fā)布并運行在了公有云上，是公有云的原生存儲產品和方案距離用戶特定業(yè)務應用訴求存在缺失的的印證和解讀。同樣，適合AI應用的存儲方案在公有云上的落地，是解決AI在公有云進一步落地的最后一公里問題。

現有哪些AI存儲方案，能滿足以上AI大規(guī)模應用的需求嗎？

DAS方式

數據直接存入GPU服務器的SSD，即DAS方式。這種方式能保證數據讀取的高帶寬、低延時，然而相較而言，缺點更為明顯，即數據容量非常有限，與此同時，SSD或NVMe磁盤的性能無法被充分發(fā)揮（通常情況下，高性能NVMe的性能利用率不足50%），不同服務器間的SSD形成孤島，數據冗余現象非常嚴重。因此，這種方式在真正的AI業(yè)務實踐中，極少被使用。

傳統(tǒng)陣列

共享的向上擴展（Scale-Up）的存儲陣列是可用的共享解決方案中最常見的，也可能是最熟悉的方案。與DAS一樣，共享的存儲陣列也存在類似的缺點，相對于傳統(tǒng)的工作負載，AI的工作負載實際上會將這些缺點暴露得更快。最明顯的是系統(tǒng)可以存儲多少總數據？大多數傳統(tǒng)陣列系統(tǒng)每個系統(tǒng)幾乎只能增長到1 PB的存儲，并且由于大多數AI大規(guī)模工作負載將需要數十PB的存儲量，因此企業(yè)只能不斷采購新的存儲陣列，導致數據孤島的產生。即使克服了容量挑戰(zhàn)，傳統(tǒng)陣列存儲也會造成性能問題。這些系統(tǒng)通常只能支持有限數量的存儲控制器，最常見的是兩個控制器，而典型的AI工作負載是高度并行的，它很容易使小型控制器不堪重負。

普通分布式文件系統(tǒng)

用戶通常使用的是GlusterFS、CephFS、Lustre，開源分布式文件系統(tǒng)的首要問題是管理和運維的復雜度。其次，GlusterFS、CephFS對海量小文件，及大規(guī)模、大容量背景下的性能難以保證?？紤]到高昂的GPU價格，如果在數據訪問上不能給予足夠的支撐，GPU的投入產出比將大幅降低，這是AI應用的管理者們最不希望看到的。

對象存儲

在對象存儲上搭建文件訪問接口網關。首先對象存儲對隨機寫或追加寫存在天然劣勢，會導致AI業(yè)務中出現寫操作時，不能很好支持。其次，對象存儲在讀延時上的劣勢，經過文件訪問接口網關后，再一次被放大。雖然通過預讀或緩存的方式，可以將一部分數據加載到前端的SSD設備上，但這會帶來以下幾個問題：1）導致上層AI框架需要針對底層的特殊架構進行適配，對框架具有入侵性，例如執(zhí)行預讀程序；2）會帶來數據加載速度不均，在數據加載過程中，或前端SSD緩存不命中時，GPU利用率下降50%-70%。

以上這些方案，僅從數據規(guī)模的可擴展性、訪問性能、AI平臺的通用性上分析來看，都不是理想的面向AI的存儲方案。

YRCloudFile——面向AI場景的存儲產品

YRCloudFile具備的幾大特性非常契合AI應用的綜合需求。

首先，這是一款可共享訪問的分布式文件存儲，可供GPU集群共享訪問。提供的是文件訪問接口，最適合對接AI的上層平臺。
支持高性能訪問海量的非結構化數據。通過YRCloudFile客戶端，上層GPU服務器可對存儲集群內的不同節(jié)點實現并發(fā)訪問，通過IO500測試，以及AI業(yè)界頭部企業(yè)驗證，性能處于業(yè)界一流水平。在海量文件的場景下，能保持性能的持續(xù)穩(wěn)定輸出。YRCloudFile在元數據和數據服務的設計和實現上所做的大量優(yōu)化，確保了AI業(yè)務復雜IO類型對數據訪問的性能要求。
通過Kubernetes平臺，可無縫調度和使用YRCloudFile提供的存儲能力。YRCloudFile除了提供標準的CSI接口外，還提供了RWX讀寫、PV配額、PVC resize、PVC QoS等企業(yè)級功能，可以有力支撐在Kubernetes上運行的AI業(yè)務對數據訪問的需要。
支持公有云部署。YRCloudFile目前已經可以在AWS、阿里云、騰訊云上快速部署，彌補了公有云對AI特定場景所需要的性能、可擴展性、運營和維護上提出的特殊要求。

總結

通過分析，我們希望能夠給AI業(yè)務的規(guī)劃人員提供關于AI業(yè)務對存儲實際需求的觀察和洞見，幫助客戶在AI業(yè)務落地，提供AI存儲產品的優(yōu)化方案。AI將成為信息化工業(yè)革命后，再次改變世界的技術和方向，AI浪潮已經在不經意間來到我們的身邊，是時候考慮面向AI的新型存儲了。

分享到

songjy

近期文章

近期文章

熱門標簽

songjy

相關推薦