T客邦 June 19, 2024
Arm於Tech Day 2024活動中詳細說明Cortex-X925、Cortex-A725、Cortex-A520等處理器以及Immortalis-G925繪圖處理器的硬體架構改進。3543d86ee420c07cc742593eb2c970a0

Arm於Tech Day 2024活動中詳細說明Cortex-X925、Cortex-A725、Cortex-A520等處理器以及Immortalis-G925繪圖處理器的硬體架構改進,我們先從處理器部分切入。

超大核、超大躍進

Arm於2024年Computex台北國際電腦展發表了終端產品運算子系統(Compute Subsystem for Client,以下簡稱CSS 24),包含新架構的Cortex-X925、Cortex-A725處理器與Immortalis-G925繪圖處理器,將既有Cortex-A520升級支援3nm節點製程,並推出可以彈性配置多種處理器、繪圖處理器的DSU-120動態分享單元,顯著改善效能與電力效率表現,並提供更大的核心搭配彈性。

Cortex-X925屬於「超大核」的產品線,根據Arm提供的數據,與2023年的旗艦智慧型手機(Premium Android)相比,在Geekbench SC單核心測試有36%的效能提升,而在Phi-3大型語言模型的首組字詞生成時間(Time to First Token)則提升46%。

Arm沒有在產品命名時依照慣例,接續2023年推出的Cortex-X4將此代產品命名為Cortex-X5,而是考量到效能的巨幅成長,而將產品命名為Cortex-X925,也正好標齊繪圖處理器「Immortalis-G925」的名字。

Cortex-X925的設計目標在於保持絕佳電力效率的前提下,盡可能提升效能表現,尤其針對AI應用進行效能強化。於是它首先增加了解碼與向量單元的寬度,取得50%的TOPS運算效能增益,並提供最高容量達3MB的L2快取記憶體選擇,降低運算延遲與提高分枝預測準確度。在硬體製造部分,導入支援多間合作夥伴晶片代工服務的3nm製程節點,透過更先進的製程技術提高電力效率,並改善PPA因素(Performance、Power、Area,指晶片的效性能、功耗、面積)。

透過這些改善措施Cortex-X925能在消耗更少電力的情況下輸出與前代產品相同的效能,也可以在提高電力預算的同時提升更多效能增益,在加速App與程式啟動速度、增加AI應用程式響應速度、提升網頁瀏覽與遊戲效能、延長續航力等方面都能帶來正面幫助。

根據Arm官方提供的數據,Cortex-X925在多款現實應用的App中能帶來平均30%的效能增益,在整體處理器叢集的AI效能有172%的提升,而對於量化的使用者體驗指標分數也有30%的改善

Arm終端事部智慧型手機市場高級總監Steve Raphael在Tech Day活動開場介紹了CSS 24的產品規劃。 ▲ Arm終端事業部智慧型手機市場高級總監Steve Raphael在Tech Day活動開場介紹了CSS 24的產品規劃。

Arm終端事部產品管理總監Steve Hopper則詳細介紹了CSS 24的特色與架構。 ▲ Arm終端事業部產品管理總監Steve Hopper則詳細介紹了CSS 24的特色與架構。

Arm終端事部高級產品經理Manish Pandey針對處理器部分進行分析說明。 ▲ Arm終端事業部高級產品經理Manish Pandey針對處理器部分進行分析說明。

CSS 24承襲2023年的全面運算解決方案(Total Compute Solution),從目前公布的路線圖可以看到明年將會迎來CSS 25。 ▲ CSS 24承襲2023年的全面運算解決方案(Total Compute Solution),從目前公布的路線圖可以看到明年將會迎來CSS 25。

CSS 24帶來Cortex-X925、Cortex-A725、Immortalis-G925、DSU-120新IP產品。 ▲ CSS 24帶來Cortex-X925、Cortex-A725、Immortalis-G925、DSU-120等新IP產品。

CSS 24將能帶來超過30%的運算與繪圖效能提升,AI推論效能可以提升59%。 ▲ CSS 24將能帶來超過30%的運算與繪圖效能提升,AI推論效能可以提升59%。

CSS 24具有多個可以滿足旗艦級行動裝置需要求的特點,包含最大化真實運算負載效能、加速生成式AI、提高系統電力效率。 ▲ CSS 24具有多個可以滿足旗艦級行動裝置需要求的特點,包含最大化真實運算負載效能、加速生成式AI、提高系統電力效率等。

Arm透過FPGA模擬TCS 23與CSS 24平台進行效能測試,後者採「2+4+2」核心處理器配14核心Immortalis-G925繪圖處理器。 ▲ Arm透過FPGA模擬TCS 23與CSS 24平台進行效能測試,後者採「2+4+2」核心處理器搭配14核心Immortalis-G925繪圖處理器。

與TSC23相比,CSS 24平台在圖像效能、App啟動速度、網頁瀏覽效能分別有30%、33%、60%的效能提升。 ▲ 與TSC23相比,CSS 24平台在圖像效能、App啟動速度、網頁瀏覽等效能分別有30%、33%、60%的效能提升。

在5款熱門遊戲的效能表現方面,CSS 24能在消耗相同電力的前提下提升37%效能,或是在FPS同樣達到120幀時節省30%電力。 ▲ 在5款熱門遊戲的效能表現方面,CSS 24能在消耗相同電力的前提下提升37%效能,或是在FPS同樣達到120幀時節省30%電力。

AI效能部分使用CSS 24的Cortex-X925處理器配Kleidi AI函數庫進行推論運算,在Llama 3 8B、Phi-3 3.8B大型語言模型的首組詞生成速度(Time to First Token,TTFT)則分別提升42%、46%。 ▲ AI效能部分使用CSS 24的Cortex-X925處理器搭配Kleidi AI函數庫進行推論運算,在Llama 3 8B、Phi-3 3.8B等大型語言模型的首組字詞生成速度(Time to First Token,TTFT)則分別提升42%、46%。

以整個處理器叢集為單位進行分析,峰值效能與2023年的旗艦級Android智慧型手機比有36%提升,Cortex-A725的電力效率比Cortex-A720提升35%,更新後的Cortex-A520電力消耗則降低15%。 ▲ 以整個處理器叢集為單位進行分析,峰值效能與2023年的旗艦級Android智慧型手機比有36%提升,Cortex-A725的電力效率比Cortex-A720提升35%,更新後的Cortex-A520電力消耗則降低15%。

整體而言CSS 24在多項效能指標平均效能增益達到30%。 ▲ 整體而言CSS 24在多項效能指標平均效能增益達到30%。

CSS 24的整體處理器叢集與TCS 23相比AI推論部分有172%效能提升,使用者體驗指標也提高30%,在App與程式啟動速度、AI應用程式響應速度、網頁瀏覽與遊戲效能、電池續航力方面都有所提升。 ▲ CSS 24的整體處理器叢集與TCS 23相比AI推論部分有172%效能提升,使用者體驗指標也提高30%,在App與程式啟動速度、AI應用程式響應速度、網頁瀏覽與遊戲效能、電池續航力等方面都有所提升。

單看Cortex-X925處理器核心,它在Geekbench SC單核心效能較2023年的旗艦級Android智慧型手機比有36%提升,Phi-3大型語言模型的首組詞生成速度較Cortex-X4提升46%。 ▲ 單看Cortex-X925處理器核心,它在Geekbench SC單核心效能較2023年的旗艦級Android智慧型手機比有36%提升,Phi-3大型語言模型的首組字詞生成速度較Cortex-X4提升46%。

Cortex-X925在IPC、時脈、系統與軟體最佳化改進之下,可以獲得36%效能增益。 ▲ Cortex-X925在IPC、時脈、系統與軟體最佳化等改進之下,可以獲得36%效能增益。

除了效能測試有所進之外,在多種實際使用情境具有更快的響應速度能提升使用者體驗。 ▲ 除了效能測試有所進步之外,在多種實際使用情境具有更快的響應速度能提升使用者體驗。

Cortex-X925能在消耗較低電力的前提下輸出相同效能,也能消耗更多電力換取更凸出的峰值效能。 ▲ Cortex-X925能在消耗較低電力的前提下輸出相同效能,也能消耗更多電力換取更凸出的峰值效能。

A系列也升級

CSS 24也包含新架構Cortex-A725處理器,其設計目標為滿足日益複雜的AI與遊戲運算需求,每個核心最多可以配置1MB L2快取記憶體,所有核心最多可以共享16MB L3快取記憶體,達到提升亂序處理的效率,進而提升整體效能輸出。在製程方面,同樣能支援3nm製程節點,進一步改善PPA因素。

根據Arm提供的數據,Cortex-A725與前代Cortex-A720相比,在效能與電力效率分別有35%、25%的提升,而在L3快取記憶體的流量部份則有20%改善,對於執行大型語言模型的效能有著關鍵幫助。

雖然Cortex-A520處理器的架構並沒有改變,但在CSS 24也將它升級支援3nm製程節點,除了同樣能夠發揮改善PPA因素的效果,帶來15%的電力效率提升。

由於目前Arm尚未推出讓CSS 24支援小晶片(Chiplet)設計,所以將Cortex-A520升級支援3nm的另一大意義,在於能夠讓它與其他CSS 24相關IP被安置於同一晶片。而Arm終端事業部高級產品經理Manish Pandey也在訪談中提到,Arm將持續關注小晶片技術的發展,並認為是高階智慧型手機的前景所在。

Cortex-A725處理器支援3nm製程節點,每個核心最多可以配置1MB L2快取記憶體,所有核心最多可以共享16MB L3快取記憶體。 ▲ Cortex-A725處理器支援3nm製程節點,每個核心最多可以配置1MB L2快取記憶體,所有核心最多可以共享16MB L3快取記憶體。

與Cortex-A720相比,Cortex-A725在效能與電力效率分別有35%、25%的提升,而在L3快取記憶體的流量部份則有20%改善。 ▲ 與Cortex-A720相比,Cortex-A725在效能與電力效率分別有35%、25%的提升,而在L3快取記憶體的流量部份則有20%改善。

Cortex-A520同樣支援3nm製程節點,能夠帶來15%的電力效率提升。 ▲ Cortex-A520同樣支援3nm製程節點,能夠帶來15%的電力效率提升。

DSU-120帶來更多組合彈性

DSU是DynamIQ Shared Unit(動態分享單元)的縮寫,其功能概念可以參考下方影片說明,它打破了傳統處理器核心組合的限制,讓叢集中的處理器核心可以自由配置,各核心也能各自動態調節運作時脈,大幅提高設計彈性與運作時的電力效率。

DSU-120最多可以容納14組處理器核心,開發者可以在設計SoC時依照需求自由選擇配置。CSS 24的升級也為DSU-120帶來更強大的電力管理功能並降低漏電問題,同時能夠減少DSU單元的占用面積並對傳輸通道進行最佳化,降低50%典型工作負載的耗電量,並降低60%快取失誤的耗電量。

DSU-120也導入全新的L3 Quick Nap功能,它讓L3快取記憶體與Arm POP記憶體一樣具有稱為Quick Nap的輕度睡眠功能,可以讓L3快取記憶體的區塊(Slice)在閒置一段時間之後自動進入Quick Nap電力狀態,而存取其他區塊時不需要喚醒Quick Nap中的區塊。

當存取Quick Nap中的區塊時,系統會送出喚醒指令,然而喚醒指令能夠與存取指令同步進行,也就是說關閉與開啟L3快取記憶體區塊的過程不會造成效能虛耗,就可以發揮省電的效果。

▲雖然這是先前較舊DSU的介紹影片,但也能得知DSU的概念與功能。

DSU-120最多支援14組處理器核心,開發者能依產品定位調整配置。 ▲ DSU-120最多支援14組處理器核心,開發者能依產品定位調整配置。

3nm製程節點對於改善PPA參數有所幫助,能夠降低50%典型工作負載的耗電量,並降低60%快取失誤的耗電量。 ▲ 3nm製程節點對於改善PPA參數有所幫助,能夠降低50%典型工作負載的耗電量,並降低60%快取失誤的耗電量。

DSU-120提供多種不同的電力模式,可以關閉閒置核心、區塊以降低漏電,達到提高電池續航力的效果。 ▲ DSU-120提供多種不同的電力模式,可以關閉閒置核心、區塊以降低漏電,達到提高電池續航力的效果。

另一方面DSU-120也提供L3 Quick Nap功能,能夠在不影響效能表現的前提下,節省L3快取記憶體的電力消耗。 ▲ 另一方面DSU-120也提供L3 Quick Nap功能,能夠在不影響效能表現的前提下,節省L3快取記憶體的電力消耗。

DSU-120讓不同的處理器核心能夠各展所長。例如Cortex-X925適合在App啟動、網頁瀏覽需要更高效能但持續時間很的應用情境,也與Cortex-A725都一樣適合應用於AI與遊戲。省電的Cortex-A520則適合負責輕度媒體放與閒置情境。 ▲ DSU-120讓不同的處理器核心能夠各展所長。例如Cortex-X925適合在App啟動、網頁瀏覽等需要更高效能但持續時間很短的應用情境,也與Cortex-A725都一樣適合應用於AI與遊戲。省電的Cortex-A520則適合負責輕度媒體播放與閒置情境。

與目前已出貨的記型電腦相比,Arm架構解決方案能夠帶來25%單執行緒效能增益,也可以透過納入更多核心提升多執行緒效能。 ▲ 與目前已出貨的筆記型電腦相比,Arm架構解決方案能夠帶來25%單執行緒效能增益,也可以透過納入更多核心提升多執行緒效能。

在Cortex-A725配Cortex-A520的組合下,能在與Cortex-A78配Cortex-A55占用相同晶片尺寸的情況下帶來13%效能增益,或是在提升些許尺寸的「完全體組態」下帶來21%效能增益。。 ▲ 在Cortex-A725搭配Cortex-A520的組合下,能在與Cortex-A78搭配Cortex-A55占用相同晶片尺寸的情況下帶來13%效能增益,或是在提升些許尺寸的「完全體組態」下帶來21%效能增益。。

Cortex-A725的Scale-Out擴充能力也相當理想,增加核心數量可以帶來接近線性效能提升。 ▲ Cortex-A725的Scale-Out擴充能力也相當理想,增加核心數量可以帶來接近線性效能提升。

整體而言,CSS 24能夠為智慧型手機與個人電腦帶來終極的效能與使用者體驗。 ▲ 整體而言,CSS 24能夠為智慧型手機與個人電腦帶來終極的效能與使用者體驗。

CSS 24在DSU-120提供的高度計彈性下,能夠滿足旗艦智慧型手機、個人電腦、一般智慧型手機、穿戴裝置的使用需求。 ▲ CSS 24在DSU-120提供的高度設計彈性下,能夠滿足旗艦智慧型手機、個人電腦、一般智慧型手機、穿戴裝置的使用需求。

CSS 24除了能能應用於行動裝置,也很適合用來打造個人電腦、AIPC,但你有注意到為什麼在個人電腦的組合範例中沒有看到繪圖處理器嗎?我們將在下篇文章繼續分析。

加入T客邦Facebook粉絲團 固定链接 'Arm Tech Day 2024解析終端產品運算子系統(1):處理器全線進入3nm節點' 提交: June 19, 2024, 5:00pm CST