NVIDIA執行長黃仁勳於GTC 2025春季場開幕演說中說明AI發展的多個階段與多種提升準確度的法則,並提出「終極摩爾定律」的發展趨勢觀查。
NVIDIA執行長黃仁勳於GTC 2025春季場開幕演說中說明AI發展的多個階段與多種提升準確度的法則,並提出「終極摩爾定律」的發展趨勢觀查。
GTC 2025春季場系列文章目錄:
黃仁勳演說深入分析:提出「終極摩爾定律」,追求相同耗電更高效能(本文)
NVIDIA發表Blackwell Ultra GPU、GB300 NVL72伺服器,Photonic矽光子交換器節能又可靠
NVIDIA如何用AI創造AI?自駕車模型訓練與蒸餾技術分析(工作中)
NVIDIA發表雙系統架構GR00T N1機器人基礎模型,與Disney、Google合作開發Newton物理引擎(工作中)
AI除了要更快,還要更省電
黃仁勳在GTC(GPU技術大會)2025春季場開幕演說中提到多款專為CUDA(Compute Unified Devices Architectured)架構所設計的加速運算函數庫,其中包含下列眾多成果
- cuNumeric: Python程式數值運算加速函數庫
- cuLitho:運算式微影加速函數庫(電腦王報導),針對運算式微影(Computational Lithography)技術開發的函數庫
- Aerial、Sionna:5G與6G電信訊號處理(電腦王報導)
- cuOPT:路線規劃最佳化
- Parabricks:加速基因序列分析
- Monai:開源醫學影像領域AI框架(電腦王報導)
- Earth-2:地球的數位孿生(電腦王報導)
- cuQuantum、CUDA-Q:加速量子運算模擬(電腦王報導)
- cuEquivariance、cuTensor:分子結構與線性代數加速函數庫
- TRT-LLM、Megatron、NCLL、cuDNN、Cutlass、cuBlas:深度學習加速函數庫
- cuDSS、cuSparse、cuFFT、AMGX:能夠應用於CAE(電腦輔助工程)的:直接稀疏求解器(Direct Sparse Solver)、用於稀疏矩陣的線性代數、快速傅立葉變換、GPU加速求解器等函數庫
- cuDF、cuML:資料科學與資料處理加速函數庫
- WARP:物理模擬加速函數庫
讓使用者能可以更便捷地導入各種加速運算。
黃仁勳也在演說中提到AI技術發展的多個階段,從2012年的AlexNet卷積神經網路開始,經歷了能夠應用於語音辨識、醫療影像辨識的感知式AI(Perception AI),以及能夠產生多種文字、影像、影片的生成式AI(Generative AI),到近期相當熱門,能夠自動整合多種AI工具並自主進行決策的代理式AI(Agentic AI),以及可以應用於自駕車、機器人的物理式AI(Physical AI),每個階段都提供了截然不同的功能,但也需要消耗更多運算能力。
黃仁勳接著說明提高AI準確度的3種擴充法則(Scaling Laws),第1種是準備大量資料並從無到有訓練基礎模型的預訓練(Pre-Training),第2種則是在基礎模型之上透過特定專業領域資料進行微調的後訓練(Post-Training)。
最後則是推理式AI(Reasoning AI)採用的測試時訓練(Test-Time Training),這種概念會將問題拆分為多個次要部分並按部就班進行「多方思考」與「反覆思考」,並且參考過渡期的答案反問是否合理。簡單來說,在推論運算過程中,AI系統會分析源頭問題,然後自行生成很多次要問題,然後在一一回答次要問題的過程自我修正,最後輸出準確度更高的答案。這個方式的挑戰在於生成次要問題時,但是需要生成更多字詞(Token),而造成總體運算量大幅提升的副作用。
黃仁勳以安排婚禮座位為例說明,利用Llama 3.3 70B大型語言模型(Large Language Model,以下簡稱LLM)進行一般推論運算,過程只需生成439個字詞就可得到答案,但是安排卻不恰當。如果使用DeepSeek R1 671B LLM(透過MoE啟用其中37B參數)進行推理式AI運算,雖然會讓需要生成的字詞數量提升近20倍達到8559個,並讓整體運算量飆升至150倍,但是得到的結果具有實用價值,能夠合適安排的座位,並安排1位牧師作為和事佬。
有趣的是,雖然一般LLM看似節省運算資源,但是得到的結果不堪使用,等於白白浪費439個字詞的運算資源,而推理式AI高漲運算需求,則可靠針對推理式AI最佳化的Dynamo AI推論軟體以及更強大的運算單元舒緩。
Dynamo說明可參考先前《GTC會前簡報》一文。黃仁勳則在演說中補充,Blackwell架構在Dynamo的協助下,可以帶來25倍於前代Hooper的效能輸出,意為著能夠提高AI資料中心25倍產能。
另一方面,今日電力已經成為資料中心營運的核心條件,更高的電力效率代表對周圍供電網路的壓力較輕,以及較低的整體持有成本(TCO)。黃仁勳也表示這種在相同電力下的效能成長幅度,將成為下一個衡量半導體技術發展的「終極摩爾定律」(Ultimate Moore's law),而以同樣消耗100 MW電力的AI資料中心為例,使用GB200 NVL72建構的運算叢集能帶來40倍於H100 NVL8的字詞收益(Token Revenue),因此黃仁勳又提到「The more you buy, the more you save」。
明年推出全新CPU、GPU架構
NVIDIA採用類似Intel Tick-Tock的時程規劃產品開發節奏,在第1年推出新的GPU架構,並在第2年改進架構、推出加強版產品,對照本世代產品便是2024年發表的Blackwell GPU架構,以及預計2025年下半推出的Blackwell Ultra架構。
Blackwell Ultra之GPU晶片中封裝了2組裸晶,總共具有15 PFLOS之FP4資料類型運算效能,並搭載容量高達288GB之HBM3e記憶體。而GB300 NVL72伺服器採用機架規模設計,整合36組Arm Neoverse架構Grace CPU與72組Blackwell Ultra GPU,總計有20TB HBM高頻寬記憶體以及40TB DDR記憶體,FP4資料類型AI運算效能高達1.1 EFLOPS。
到了2026年下半,NVIDIA將同時推出全新的Vera CPU架構以及Rubin GPU架構,前者採用88核176緒配置的客製化處理器核心,而後者則在單一GPU晶片中封裝2組裸晶,將運算效能提升至50 PFLOS,並搭載288GB HBM4高頻寬記憶體。此代架構也同時導入頻寬達3600 GB/s的第6代VNLink互連技術,並升級至Spectrum 6與ConnectX 9 InfiniBand網路介面卡。
至於2027年下半則輪到Rubin Ultra架構,它最大的改變在於將會在單一GPU晶片封裝內整合4組裸晶,將運算效能提升至100 PFLOPS,並搭載1TB HMB4e高頻寬記憶體。
值得注意的是,黃仁勳也在演說中承認Blackwell的命名明方式有可改進之處。Blackwell GPU的我們「肉眼可見」的單一晶片封裝(Chip Package)具有2組裸晶(Die),而每組GB200 Superchip具有2組Blackwell晶片封裝、共4組裸晶,因此由36組GB200 Superchip組成的GB200 NVL72伺服器,具有72組Blackwell晶片封裝、共144組裸晶。
而在Vera Rubin世代的伺服器將改以裸晶數量進行命名,因此將晶片配置數量與GB200 NVL72伺服器接近的產品並非命名為「Vera Rubin NVL72」,而是「Vera Rubin NVL144」,並非增加1倍晶片數量。
而在這之後,預計於2028年下半推出的產品將沿用Vera CPU架構,並升級至全新Feynman GPU架構,搭配第8代VNLink互連技術以及Spectrum 7、ConnectX 10 InfiniBand網路介面卡。
(下頁還有矽光子、工作站、自駕車、機器人介紹)
矽光子節能並提升資料中心運算密度
黃仁勳提到過去伺服器與資料中心常用銅線建置網路(筆者註:指一般金屬導線之網路線),這類線材很適合應用於1至2米範圍或是距離較短的設立,但是隨著資料中心的規模越來越大、伺服器的數量越來越多,彼此的距離也隨之增加,因此需要使用更長的網路線,並使用光纖取代銅線以解決訊號衰退的問題。
但是傳統的傳統光纖網路交換器需要額外安裝光纖模組,每個端子的資料處理器(DSP)與雷射模組共計消耗30 W電力,為了要連接數量龐大的伺服器,整體電力的開銷也是相當可觀。
為了降低光纖網路系統的耗電量,NVIDIA發表與TSMC(台積電)以及多位生太系統合作夥伴共同研發的共同封裝光學技術(Co-Packaged Optics,CPO),這系列矽光子網路交換器採用TSMC微型環狀調變器(Micro-Ring Modulator,MRM),光學引擎與雷射光源僅消耗9 W電力,且低訊號衰退更低,提供更可靠、省電、高品質的資料交換與通訊。
資料中心轉移至矽光子網路交換器在於能夠省下通訊使用的電力,並在總體電力限制不變的前提下,將電力轉移給更多CPU與GPU使用以提升更多運算能力,進而提高資料中心的收益。對整體資料中心而言,這個發展趨勢也符合前面提到的「終極摩爾定律」。
矽光子網路交換器的詳細介紹與圖文特色說明可參考《GTC會前簡報》一文。
想要買一台DGX Station放家裡嗎?
黃仁勳在演說中特別拿出DGX Station的主機板,說明它是它桌上型電腦尺寸的AI工作站,搭載GB300 Superchip,具有容量高達784 GB的統一記憶體,能夠提供20 PFLOPS的FP4資料類型AI運算效能,並搭載網路頻寬達800 gigabits的ConnectX-8 SuperNIC,能夠高速連接多個DGX Station以處理更大規模的工作負載。
另一方面,黃仁勳也特別強調DGX Station具有3組PCIe Gen 5x16擴充插槽,能夠加裝RTX PRO 6000 Blackwell等多款運算卡來提升整體運算效能,為進階使用者與小型工作室提供大規模AI訓練與推理運算的充沛效能。
如果覺得DGX Station超出預算,也可以考慮先前在CES 25亮相、後來正式定名為DGX Spark的迷你超級電腦,它的尺寸更小、價格更低,並具有1000 TOPS的峰值AI運算效能。
自駕車模型蒸餾與GR00T N1開源機器人模型
NVIDIA也於發表Halos自動駕駛安全系統堆疊,它整合車輛架構、AI模型、晶片、軟體、工具、服務等多個面向,提供從雲端到車輛的安全開發環境。
另一個重大消息為NVIDIA將以開源型式釋出GR00T N1機器人基礎模型,提供通用人形機器人推理能力和多種技能。
黃仁勳也在演說中提到在自駕車領域透過Cosmos的生成式世界基礎模型搭配模型蒸餾技術,一方面加速模型開發,另一方面降低行駛時AI推論運算的資源需求。在GR00T N1部分,除了全球首款開源、可完全自訂的機器人基礎模型之外,也採用分別負責快速思考反射動作、緩慢思考做出有條理決策的雙系統架構。
筆者將針對這2個部分撰文詳述,請有興趣的讀者查閱文章頂部之列文章目錄。
GTC 2025春季場於2025年3月17日至21日在美國加州聖荷西舉行,筆者撰文時活動已經結束,錯過活動的讀者仍可於YouTube觀看開幕演說重播。
加入T客邦Facebook粉絲團