T客邦 October 10, 2023
對於 AMD 和許多其他硬體供應商來說,PyTorch 已經降下了 CUDA 城堡的吊橋,讓基礎模型變得更加開放。6f12ab2569a87b120a6bde116a12946c

在生成式 AI 時代,GPU 的重要性毋庸置疑。NVIDIA與 AMD 這兩個重量級選手正在硬體、軟體層面展開激烈角逐。 

如今,當人們談論起生成式 AI(GenAI)時,GPU 以及相應的性能和造訪性幾乎是繞不過的話題。而NVIDIA又是 GPU 的代名詞,在國際 GPU 市場上佔據絕對優勢的占有率。同時,近年來 AMD 也逐漸崛起,有了一定市場占有率。 

不過,AMD 與NVIDIA仍存在一定的差距。之前市場調查研究機構 Jon Peddie Research 發表的 2022 年 GPU 市場資料統計報告顯示,NVIDIA PC GPU 出貨量高達 3034 萬張,是 AMD 的近 4.5 倍。 

就NVIDIA而言,其 GPU 與生成式 AI 的緊密聯繫絕非偶然。一直以來,NVIDIA認識到需要利用工具和應用來幫助拓展自己的市場。因此,NVIDIA為人們獲取自身硬體設置了非常低的門檻,包括 CUDA 工具包和 cuDNN 優化庫等。 

在被稱為硬體公司之外,正如NVIDIA應用深度學習研究副總裁 Bryan Catanzaro 所言,「很多人不知道的一點是,NVIDIA的軟體工程師比硬體工程師還要多。」 

可以說,NVIDIA圍繞其硬體構建了強大的軟體護城河。雖然 CUDA 不開源,但免費提供,並處於NVIDIA的嚴格控制之下。NVIDIA從中受益,但也給那些希望透過開發替代硬體搶佔 HPC 和生成式 AI 市場的公司和使用者帶來了挑戰。 

「城堡地基」上的建築 

我們知道,為生成式 AI 開發的基礎模型數量持續增長,其中很多是開源的,可以自由使用和共用,如 Meta 的 Llama 系列大模型。這些模型需要大量資源(如人力和機器)來構建,並且局限於擁有大量 GPU 的超大規模企業,像是 AWS、微軟 Azure、Google Cloud、Meta Platforms 等。此外其他公司也購買大量 GPU 來構建自己的基礎模型。 

從研究的角度來看,這些模型很有趣,可以用於各種任務。但是,對更多生成式 AI 計算資源的預期使用和需求越來越大,比如模型微調和推理,前者將特定領域的資料加入到基礎模型中,使之適合自己的使用案例;後者在微調後,實際使用(即問問題)需要消耗資源。 

這些任務需要加速運算的參與,即 GPU。顯而易見的解決方案是購買更多的NVIDIA GPU。但隨著供不應求,AMD 迎來了很好的機會。Intel和其他一些公司也準備好進入這一市場。隨著微調和推理變得更加普遍,生成式 AI 將繼續擠壓 GPU 的可用性,這時使用任何 GPU(或加速器)都比沒有 GPU 好。 

放棄NVIDIA硬體意味著其他供應商的 GPU 和加速器必須支援 CUDA 才能運行很多模型和工具。AMD透過 HIP(類 CUDA)轉換工具使這一情況成為可能。 

PyTorch 放下軟體護城河「吊橋」 

在 HPC 領域,支援 CUDA 的應用程式統治著 GPU 加速的世界。使用 GPU 和 CUDA 時,移植程式碼通常可以實現 5-6 倍的加速。但在生成式 AI 中,情況卻截然不同。 

最開始,TensorFlow 是使用 GPU 創建 AI 應用的首選工具,它既可以與 CPU 配合使用,也能夠透過 CUDA 實現加速。不過,這一情況正在快速發生改變。 

PyTorch 成為了 TensorFlow 的強有力替代品,作為一個開源機器學習庫,它主要用於開發和訓練基於神經網路的深度學習模型。 

最近 AssemblyAI 的一位開發者 educator Ryan O’Connor 在一篇部落格文章中指出,在流行的 HuggingFace 網站上,92% 的可用模型都是 PyTorch 獨有的。 

此外如下圖所示,機器學習論文的比較也顯示出放棄 TensorFlow、轉投 PyTorch 的顯著趨勢。 

GPU暴增的GenAI時代,AMD在跨越NVIDIA所建立的CUDA軟體城河

當然,PyTorch 底層呼叫 CUDA ,但不是必需的,這是因為 PyTorch 將使用者與底層 GPU 架構隔離開來。AMD 還有一個使用 AMD ROCm 的 PyTorch 版本,它是一個用於 AMD GPU 程式設計的開源軟體堆疊。 

現在,對於 AMD GPU 而言,跨越 CUDA 護城河就像使用 PyTorch 一樣簡單。 

推理的本能 

在 HPC 和生成式 AI 中,配有 H100 GPU 共用記憶體的NVIDIA 72 核、且基於 ARM 的 Grace-Hopper 超級晶片(以及 144 核 Grace-Grace 版本)備受期待。 

迄今,NVIDIA發表的所有基準測試表明,該晶片的性能比透過 PCIe 匯流排連接和存取GPU 的傳統伺服器要好得多。Grace-Hopper 是面向 HPC 和生成式 AI 的最佳化硬體,有望在微調和推理方面得到廣泛應用,需求預計會很高。 

而 AMD 從 2006 年(于當年收購了顯示卡公司 ATI)就已經出現了帶有共用記憶體的 CPU-GPU 設計。從 Fusion 品牌開始,很多 AMD x86_64 處理器都作為 APU(加速處理單元)的組合 CPU/GPU 來實現。 

AMD 推出的 Instinct MI300A 處理器(APU)將與NVIDIA的 Grace-Hopper 超級晶片展開競爭。整合的 MI300A 處理器將最多提供 24 個 Zen4 核心,並結合 CDNA 3 GPU 架構和最多 192GB 的 HBM3 記憶體,為所有 CPU 和 GPU 核心提供了統一的造訪記憶體。 

可以說,晶片級快取一致性記憶體減少了 CPU 和 GPU 之間的資料移動,消除了 PCIe 匯流排瓶頸,提升了性能和能效。 

GPU暴增的GenAI時代,AMD在跨越NVIDIA所建立的CUDA軟體城河

AMD 正在為模型推理市場準備 MI300A 處理器。如 AMD CEO 蘇姿丰所言,「實際上,得益於架構上的一些選擇,我們認為自己將成為推理解決方案的行業領導者。」 

對於 AMD 和很多其他硬體供應商而言,PyTorch 已經在圍繞基礎模型的 CUDA 護城河上放下了吊橋。AMD 的 Instinct MI300A 處理器將打頭陣。 

生成式 AI 市場的硬體之戰將憑藉性能、可攜性和可用性等多因素來取勝。未來鹿死誰手,尚未可知。 

資料來源:

加入T客邦Facebook粉絲團 固定链接 'GPU暴增的GenAI時代,AMD正在跨越NVIDIA所建立的CUDA軟體護城河' 提交: October 10, 2023, 5:00pm CST