廣場
最新
熱門
新聞
我的主頁
發布
加密KFA
2026-04-27 03:11:18
關注
當今 AI 由 5 種硬體架構主導,每一種都在彈性、並行性和記憶體存取之間做出了不同的權衡。
CPU:通用計算設計,只有少量強大核心,擅長複雜邏輯、分支判斷和系統級任務。它有深層快取和片外 DRAM(主記憶體),適合操作系統、資料庫等,但對神經網路所需的重複矩陣乘法不太高效。
GPU:不是少數強大核心,而是成千上萬個較小核心同時執行相同指令(SIMD)。這種高度並行性完美匹配神經網路的數學運算,因此主導了 AI 訓練。
TPU(Google 設計):進一步專業化。核心是乘累加(MAC)單元組成的網格,資料以“波浪”形式流動——權重從一邊進入,激活值從另一邊進入,結果直接傳播,無需每次回寫記憶體。整個執行由編譯器控制(非硬體調度),專門為神經網路工作負載優化。
NPU(Neural Processing Unit):邊緣設備優化版。內建 Neural Compute Engine(大量 MAC 陣列 + 片上 SRAM),但使用低功耗系統記憶體而非高帶寬 HBM。目標是在手機、可穿戴設備、物聯網等場景下以單位瓦數的功耗運行推理(Apple Neural Engine、Intel NPU 都屬於此類)。
LPU(Language Processing Unit,由 Groq 推出):最新成員。完全移除片外記憶體,所有權重都放在片上 SRAM 中。執行完全確定性、由編譯器調度,無快取失效、無運行時調度開銷。代價是單晶片記憶體有限,需要數百個晶片互聯才能服務大型模型,但延遲優勢非常明顯。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
WCTC交易王PK
60.96萬 熱度
#
美國尋求戰略比特幣儲備
5880.92萬 熱度
#
比特幣ETF期權限額提高4倍#
105.41萬 熱度
#
#聯準會利率不變但內部分歧加劇#
4.82萬 熱度
#
DeFi4月安全事件損失超6億美元
1021.15萬 熱度
置頂
網站地圖
當今 AI 由 5 種硬體架構主導,每一種都在彈性、並行性和記憶體存取之間做出了不同的權衡。
CPU:通用計算設計,只有少量強大核心,擅長複雜邏輯、分支判斷和系統級任務。它有深層快取和片外 DRAM(主記憶體),適合操作系統、資料庫等,但對神經網路所需的重複矩陣乘法不太高效。
GPU:不是少數強大核心,而是成千上萬個較小核心同時執行相同指令(SIMD)。這種高度並行性完美匹配神經網路的數學運算,因此主導了 AI 訓練。
TPU(Google 設計):進一步專業化。核心是乘累加(MAC)單元組成的網格,資料以“波浪”形式流動——權重從一邊進入,激活值從另一邊進入,結果直接傳播,無需每次回寫記憶體。整個執行由編譯器控制(非硬體調度),專門為神經網路工作負載優化。
NPU(Neural Processing Unit):邊緣設備優化版。內建 Neural Compute Engine(大量 MAC 陣列 + 片上 SRAM),但使用低功耗系統記憶體而非高帶寬 HBM。目標是在手機、可穿戴設備、物聯網等場景下以單位瓦數的功耗運行推理(Apple Neural Engine、Intel NPU 都屬於此類)。
LPU(Language Processing Unit,由 Groq 推出):最新成員。完全移除片外記憶體,所有權重都放在片上 SRAM 中。執行完全確定性、由編譯器調度,無快取失效、無運行時調度開銷。代價是單晶片記憶體有限,需要數百個晶片互聯才能服務大型模型,但延遲優勢非常明顯。