【GTC 2025】黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能

ydfz.cn / /html/index.html

NVIDIA執行長黃仁勳於GTC 2025春季場開幕演說中說明AI發展的多個階段與多種提升準確度的法則,並提出「終極摩爾定律」的發展趨勢觀查。B09695f5ebbf89da613514d9d3a31730

NVIDIA執行長黃仁勳於GTC 2025春季場開幕演說中說明AI發展的多個階段與多種提升準確度的法則,並提出「終極摩爾定律」的發展趨勢觀查。

GTC 2025春季場系列文章目錄:
黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能(本文)
NVIDIA發表Blackwell Ultra GPU、GB300 NVL72伺服器,Photonic矽光子交換器節能又可靠
NVIDIA如何用AI創造AI?自駕車模型訓練與蒸餾技術分析(工作中)
NVIDIA發表雙系統架構GR00T N1機器人基礎模型,與Disney、Google合作開發Newton物理引擎(工作中)

AI除了要更快,還要更省電

黃仁勳在GTC(GPU技術大會)2025春季場開幕演說中提到多款專為CUDA(Compute Unified Devices Architectured)架構所設計的加速運算函數庫,其中包含下列眾多成果

  • cuNumeric: Python程式數值運算加速函數庫
  • cuLitho:運算式微影加速函數庫(電腦王報導),針對運算式微影(Computational Lithography)技術開發的函數庫
  • Aerial、Sionna:5G與6G電信訊號處理(電腦王報導
  • cuOPT:路線規劃最佳化
  • Parabricks:加速基因序列分析
  • Monai:開源醫學影像領域AI框架(電腦王報導
  • Earth-2:地球的數位孿生(電腦王報導
  • cuQuantum、CUDA-Q:加速量子運算模擬(電腦王報導
  • cuEquivariance、cuTensor:分子結構與線性代數加速函數庫
  • TRT-LLM、Megatron、NCLL、cuDNN、Cutlass、cuBlas:深度學習加速函數庫
  • cuDSS、cuSparse、cuFFT、AMGX:能夠應用於CAE(電腦輔助工程)的:直接稀疏求解器(Direct Sparse Solver)、用於稀疏矩陣的線性代數、快速傅立葉變換、GPU加速求解器等函數庫
  • cuDF、cuML:資料科學與資料處理加速函數庫
  • WARP:物理模擬加速函數庫

讓使用者能可以更便捷地導入各種加速運算。

黃仁勳也在演說中提到AI技術發展的多個階段,從2012年的AlexNet卷積神經網路開始,經歷了能夠應用於語音辨識、醫療影像辨識的感知式AI(Perception AI),以及能夠產生多種文字、影像、影片的生成式AI(Generative AI),到近期相當熱門,能夠自動整合多種AI工具並自主進行決策的代理式AI(Agentic AI),以及可以應用於自駕車、機器人的物理式AI(Physical AI),每個階段都提供了截然不同的功能,但也需要消耗更多運算能力。

黃仁勳接著說明提高AI準確度的3種擴充法則(Scaling Laws),第1種是準備大量資料並從無到有訓練基礎模型的預訓練(Pre-Training),第2種則是在基礎模型之上透過特定專業領域資料進行微調的後訓練(Post-Training)。

最後則是推理式AI(Reasoning AI)採用的測試時訓練(Test-Time Training),這種概念會將問題拆分為多個次要部分並按部就班進行「多方思考」與「反覆思考」,並且參考過渡期的答案反問是否合理。簡單來說,在推論運算過程中,AI系統會分析源頭問題,然後自行生成很多次要問題,然後在一一回答次要問題的過程自我修正,最後輸出準確度更高的答案。這個方式的挑戰在於生成次要問題時,但是需要生成更多字詞(Token),而造成總體運算量大幅提升的副作用。

黃仁勳以安排婚禮座位為例說明,利用Llama 3.3 70B大型語言模型(Large Language Model,以下簡稱LLM)進行一般推論運算,過程只需生成439個字詞就可得到答案,但是安排卻不恰當。如果使用DeepSeek R1 671B LLM(透過MoE啟用其中37B參數)進行推理式AI運算,雖然會讓需要生成的字詞數量提升近20倍達到8559個,並讓整體運算量飆升至150倍,但是得到的結果具有實用價值,能夠合適安排的座位,並安排1位牧師作為和事佬。

有趣的是,雖然一般LLM看似節省運算資源,但是得到的結果不堪使用,等於白白浪費439個字詞的運算資源,而推理式AI高漲運算需求,則可靠針對推理式AI最佳化的Dynamo AI推論軟體以及更強大的運算單元舒緩。

Dynamo說明可參考先前《GTC會前簡報》一文。黃仁勳則在演說中補充,Blackwell架構在Dynamo的協助下,可以帶來25倍於前代Hooper的效能輸出,意為著能夠提高AI資料中心25倍產能。

另一方面,今日電力已經成為資料中心營運的核心條件,更高的電力效率代表對周圍供電網路的壓力較輕,以及較低的整體持有成本(TCO)。黃仁勳也表示這種在相同電力下的效能成長幅度,將成為下一個衡量半導體技術發展的「終極摩爾定律」(Ultimate Moore's law),而以同樣消耗100 MW電力的AI資料中心為例,使用GB200 NVL72建構的運算叢集能帶來40倍於H100 NVL8的字詞收益(Token Revenue),因此黃仁勳又提到「The more you buy, the more you save」。

NVIDIA為CUDA統一運算架構開發了cuNumeric、cuLitho、Aerial、Sionna、cuOPT、Parabricks、Monai、Earth-2、cuQuantum、CUDA-Q、cuEquivariance、cuTensor、TRT-LLM、Megatron、NCLL、cuDNN、Cutlass、cuBlas、cuDSS、cuSparse、cuFFT、AMGX、cuDF、cuML、WARP等大量加速運算含數庫,為各行各業提供強大的運算效能。

NVIDIA透過CUDA為企業IT、雲端服務、雲端GPU、邊緣運算、6G網路、自動化製造、機器人、自駕車等多種領域提供完整AI軟體堆疊,並具有領先技術與豐富的開發者生態系統,滿足各行各業對AI的需求。

黃仁勳在GTC 2025春季場演說中提到AI技術發展包含感知式、生成式、代理式、物理式等多個階段。

在3種提高AI準確度的擴充法則中,包含預訓練、後訓練,以及推理式AI採用的測試時訓練,後者可能會提高100倍運算能力的需求。

若在測試時訓練導入可驗證獎勵強化學習(Reinforcement Learning with Verifiable Reward,RLVR)甚至會讓運算過程產生的字詞數達到100T的數量級。

以安排婚禮座位為例,一般推論運算只生成439個字詞就可得到答案,但是安排卻不恰當,等於白白浪費運算能力。推理式AI運算雖然會讓字詞數量提升近20倍,並讓整體運算量飆升至150倍,但得到的答案具有實用價值。

Dynamo能夠拆分推論工作,並動態調節、重新分配運算叢集中的GPU資源,以提高整體運算效能並降低成本。

Blackwell架構在Dynamo的協助下,可以帶來25倍於前代Hoope架構r的效能輸出。

在同樣消耗100 MW電力前提下,Blackwell架構能帶來40倍於Hooper架構的字詞收益。

明年推出全新CPU、GPU架構

NVIDIA採用類似Intel Tick-Tock的時程規劃產品開發節奏,在第1年推出新的GPU架構,並在第2年改進架構、推出加強版產品,對照本世代產品便是2024年發表的Blackwell GPU架構,以及預計2025年下半推出的Blackwell Ultra架構。

Blackwell Ultra之GPU晶片中封裝了2組裸晶,總共具有15 PFLOS之FP4資料類型運算效能,並搭載容量高達288GB之HBM3e記憶體。而GB300 NVL72伺服器採用機架規模設計,整合36組Arm Neoverse架構Grace CPU與72組Blackwell Ultra GPU,總計有20TB HBM高頻寬記憶體以及40TB DDR記憶體,FP4資料類型AI運算效能高達1.1 EFLOPS。

到了2026年下半,NVIDIA將同時推出全新的Vera CPU架構以及Rubin GPU架構,前者採用88核176緒配置的客製化處理器核心,而後者則在單一GPU晶片中封裝2組裸晶,將運算效能提升至50 PFLOS,並搭載288GB HBM4高頻寬記憶體。此代架構也同時導入頻寬達3600 GB/s的第6代VNLink互連技術,並升級至Spectrum 6與ConnectX 9 InfiniBand網路介面卡。

至於2027年下半則輪到Rubin Ultra架構,它最大的改變在於將會在單一GPU晶片封裝內整合4組裸晶,將運算效能提升至100 PFLOPS,並搭載1TB HMB4e高頻寬記憶體。

值得注意的是,黃仁勳也在演說中承認Blackwell的命名明方式有可改進之處。Blackwell GPU的我們「肉眼可見」的單一晶片封裝(Chip Package)具有2組裸晶(Die),而每組GB200 Superchip具有2組Blackwell晶片封裝、共4組裸晶,因此由36組GB200 Superchip組成的GB200 NVL72伺服器,具有72組Blackwell晶片封裝、共144組裸晶。

而在Vera Rubin世代的伺服器將改以裸晶數量進行命名,因此將晶片配置數量與GB200 NVL72伺服器接近的產品並非命名為「Vera Rubin NVL72」,而是「Vera Rubin NVL144」,並非增加1倍晶片數量。

而在這之後,預計於2028年下半推出的產品將沿用Vera CPU架構,並升級至全新Feynman GPU架構,搭配第8代VNLink互連技術以及Spectrum 7、ConnectX 10 InfiniBand網路介面卡。

NVIDAI的AI運算路線圖,2026與2027年為Rubin GPU世代,2028年開始進入Feynman世代。

提到Vera Rubin NVL144命名規則,需先回顧GB200 Superchip。看到實體圖片上方為2組Blackwell GPU,中央則為Grace CPU與LPDDR5x記憶體。

仔細看Blackwell GPU晶片封裝中的細線,可以看到中央上下併排的2組Blackwell GPU裸晶。

GB200 NVL72伺服器具有18組GB200 Superchip運算節點,總共包含36組Grace CPU,以及72組Blackwell GPU晶片封裝(共144組Blackwell GPU裸晶)。而Vera Rubin NVL144則直接取144組裸晶之文意進行命名。

2025年下半將推出強化版的Blackwell Ultra GPU與對應的Blackwell Ultra NVL72伺服器。

2026年下半則為全新架構之Vera CPU與Rubin GPU,對應的Vera Rubin NVL144伺服器。

2027年下半將推出強化版、在單一GPU晶片封裝內整合4組裸晶的Rubin Ultra,並推出Rubin Ultra NVL576伺服器。

若以圖像表示運算單元的尺寸,Grace Blackwell NVL72為圖片中央的銀色晶片。

相較之下Vera Rubin NVL576的尺寸巨大許多。

比較各世代之運算效能,Blackwell與Rubin分別為Hopper的68、900倍。整體持有成本與效能相除的成本指數則為13%、3%,升級至新世代具有極佳經濟效益。

(下頁還有矽光子、工作站、自駕車、機器人介紹)

矽光子節能並提升資料中心運算密度

黃仁勳提到過去伺服器與資料中心常用銅線建置網路(筆者註:指一般金屬導線之網路線),這類線材很適合應用於1至2米範圍或是距離較短的設立,但是隨著資料中心的規模越來越大、伺服器的數量越來越多,彼此的距離也隨之增加,因此需要使用更長的網路線,並使用光纖取代銅線以解決訊號衰退的問題。

但是傳統的傳統光纖網路交換器需要額外安裝光纖模組,每個端子的資料處理器(DSP)與雷射模組共計消耗30 W電力,為了要連接數量龐大的伺服器,整體電力的開銷也是相當可觀。

為了降低光纖網路系統的耗電量,NVIDIA發表與TSMC(台積電)以及多位生太系統合作夥伴共同研發的共同封裝光學技術(Co-Packaged Optics,CPO),這系列矽光子網路交換器採用TSMC微型環狀調變器(Micro-Ring Modulator,MRM),光學引擎與雷射光源僅消耗9 W電力,且低訊號衰退更低,提供更可靠、省電、高品質的資料交換與通訊。

資料中心轉移至矽光子網路交換器在於能夠省下通訊使用的電力,並在總體電力限制不變的前提下,將電力轉移給更多CPU與GPU使用以提升更多運算能力,進而提高資料中心的收益。對整體資料中心而言,這個發展趨勢也符合前面提到的「終極摩爾定律」。

矽光子網路交換器的詳細介紹與圖文特色說明可參考《GTC會前簡報》一文。

NVIDIA預計於2025年下半推出搭載共同封裝光學技術的Spectrum-X Photonics矽光子Ethernet網路交換器,Quantum-X Photonics矽光子InfiniBand網路交換器則需等到2026年下半。

黃仁勳於演說中拿出光纖模組說明傳統光纖網路交換器較為耗電的原因。

矽光子網路交換器將光通訊元件整合於在晶片封裝,能夠將原本30 W的功耗降低至9 W。

位於晶片封裝上的光學引擎能夠節省3.5倍電力,當伺服器數量一多,節省的總電力也相當可觀,有助於在總體電力限制下擠出更多運算能力。

具有144組800Gb/s InfiniBand連接埠的Quantum-X Photonics 3450-LD交換器採用液冷設計。Spectrum-X Photonics交換器則提供128組800Gb/s連接埠的SN6810與512組200Gb/s連接埠的SN6800等型號。。

想要買一台DGX Station放家裡嗎?

黃仁勳在演說中特別拿出DGX Station的主機板,說明它是它桌上型電腦尺寸的AI工作站,搭載GB300 Superchip,具有容量高達784 GB的統一記憶體,能夠提供20 PFLOPS的FP4資料類型AI運算效能,並搭載網路頻寬達800 gigabits的ConnectX-8 SuperNIC,能夠高速連接多個DGX Station以處理更大規模的工作負載。

另一方面,黃仁勳也特別強調DGX Station具有3組PCIe Gen 5x16擴充插槽,能夠加裝RTX PRO 6000 Blackwell等多款運算卡來提升整體運算效能,為進階使用者與小型工作室提供大規模AI訓練與推理運算的充沛效能。

如果覺得DGX Station超出預算,也可以考慮先前在CES 25亮相、後來正式定名為DGX Spark的迷你超級電腦,它的尺寸更小、價格更低,並具有1000 TOPS的峰值AI運算效能。

黃仁勳在介紹DGX Station特別強調它具有PCIe。擴充插槽能夠加裝運算卡提升整體運算效能。

DGX Station搭載GB300 Superchip運算單元以及ConnectX-8 SuperNIC網路卡,並具有784 GB記憶體。

除了DGX Station之外,對運算能力需求較低的使用者也可考慮圖片左方的DGX Spark迷你超級電腦,或使用RTX Pro運算卡建置工作站。

自駕車模型蒸餾與GR00T N1開源機器人模型

NVIDIA也於發表Halos自動駕駛安全系統堆疊,它整合車輛架構、AI模型、晶片、軟體、工具、服務等多個面向,提供從雲端到車輛的安全開發環境。

另一個重大消息為NVIDIA將以開源型式釋出GR00T N1機器人基礎模型,提供通用人形機器人推理能力和多種技能。

黃仁勳也在演說中提到在自駕車領域透過Cosmos的生成式世界基礎模型搭配模型蒸餾技術,一方面加速模型開發,另一方面降低行駛時AI推論運算的資源需求。在GR00T N1部分,除了全球首款開源、可完全自訂的機器人基礎模型之外,也採用分別負責快速思考反射動作、緩慢思考做出有條理決策的雙系統架構。

筆者將針對這2個部分撰文詳述,請有興趣的讀者查閱文章頂部之列文章目錄。

Halos是至整合車輛架構、AI模型、晶片、軟體、工具、服務等多個面向的自動駕駛安全系統堆疊。

在自駕車的模型訓練方面,透過Cosmos的生成式世界基礎模型產生的資料進行訓練,再搭配蒸餾技術節省行駛時的運算需求。

黃仁勳分析機器人產業需要環境模擬、模型訓練、部署執行等多種開發階段,將衍生上兆美金的工業產值。

延續上述3個階段,NVIDIA提供Omniverse與Cosmos進行模擬、GR00T N1基礎模型、Jetson Thor邊緣運算電腦等軟、硬體組合,滿足機器人開發與應用所需。

GR00T N1採用創新的雙系統架構,「系統1」是快速思考的動作模型,反映人類的反射或直覺,「系統2」是緩慢思考的模型,用於深思熟慮做出有條理的決策。

NVIDIA發表與Disney、Google共同研發、應用於機器人模擬的開源物理引擎。

黃仁勳也在演說最後介面基於上述技術打造的BLUE機器人,模樣相當可愛並可回應人類的語音。

GTC 2025春季場於2025年3月17日至21日在美國加州聖荷西舉行,筆者撰文時活動已經結束,錯過活動的讀者仍可於YouTube觀看開幕演說重播

加入T客邦Facebook粉絲團

/html/index.html / Back