AI芯片“分工”時刻來臨!谷歌第八代TPU為什么要拆分成兩款獨立芯片?
在周三 (22 日) 舉行的 Google Cloud Next 2026 大會上,谷歌(GOOGL-US) 正式發布其第八代張量處理器 (TPU) 的兩款全新產品,專為 AI 模型訓練設計的 TPU 8t 與專為推理優化的 TPU 8i,這是谷歌史上首次將訓練與推理任務拆分至獨立芯片,標志著其 AI 硬體策略的重大轉向。
谷歌兩款芯片均打算在今年稍晚正式對外供應,旨在透過專項優化應對日益分化的 AI 工作負載,并以更具成本效益的方式提供大規模吞吐量和低延遲,滿足數百萬個 AI 智能體同時運行的需求。
谷歌此次戰略調整是對 AI 計算特性分化的直接回應。隨著 AI 智能體興起,預訓練、后訓練與即時推理在運算需求上已顯著不同;訓練任務追求極致的吞吐量與規模擴展,而推理任務則對延遲和并發更為敏感。
谷歌資深副總裁兼 AI 與基礎設施技術長 Amin Vahdat 指出,業界將受惠于針對這兩類需求專門優化的芯片。
Alphabet 執行長皮查伊也強調,這項架構旨在以低成本提供大規模算力。從市場角度來看,統一芯片往往導致某一場景下的資源浪費,而雙芯片策略能顯著提升價格效能比,降低云端 AI 基礎設施的整體擁有成本。
在效能數據上,第八代 TPU 相比去年 11 月發布的第七代 Ironwood 有了巨大飛躍。 TPU 8t 在同等價格下效能提升 2.8 倍,TPU 8i 效能提升 80%,兩款芯片的能源效率表現特別亮眼,
此外,每瓦效能均較上一代提升逾一倍,其中 TPU 8t 達到 124%,TPU 8i 達到 117%,兩款芯片均整合了基于安謀架構的 Axion CPU,以消除資料預處理延遲造成的主機側瓶頸,確保 TPU 運算單位持續滿載運作。第八代 TPU 延續了成熟的軟體體系,支援 JAX、PyTorch、Keras 及 vLLM 等主流框架,原生 PyTorch 支援現已進入預覽階段,使用者可直接遷移模型而無需修改程式碼。
TPU 8t 定位為超大規模訓練的算力引擎,號稱能將前沿模型的開發周期從數月壓縮至數周。
在規模上,它最多可將 9600 塊芯片組合為單一超級運算節點,并透過 JAX 與 Pathways 框架將分散式訓練擴展至單一集群超過 100 萬塊芯片,其核心技術創新包括:專門處理嵌入查找的 SparseCore 加速器、原生 FP4 支援 (使 MXU 吞吐量翻倍并降低能耗),以及更均衡的向量處理單元擴展設計。
網路層面引進了全新的 Virgo 架構,數據中心網路頻寬提升最高 4 倍,芯片間互聯頻寬提升 2 倍,單一網路可連接逾 13.4 萬個芯片。
儲存方面則透過 TPUDirect 技術繞過 CPU 直接傳輸數據,存取速度提升 10 倍,確保處理大規模多模態資料集時算力不閑置。
TPU 8i 則面向高并發推理場景,重心在于降低延遲與提升并發處理能力,其最顯著的硬體特征是整合了 384MB 靜態隨機存取存儲器,容量是上一代的三倍,可將更大的 KV Cache 保留在片上,大幅減少長上下文解碼的等待時間。
此外,它引入了集合加速引擎 (CAE),專門加速自回歸解碼與思維鏈處理,使片上集合操作延遲降低 5 倍。
在網路拓撲上,TPU 8i 放棄了傳統的 3D 環面結構,轉而采用全新的 Boardfly 互聯拓撲,將最大跳數壓縮至 7 跳,全對全通訊延遲改善最高 50%,這對混合專家模型和頻繁的跨芯片令牌路由極為有利。TPU 8i 的 Pod 規模可擴展至 1152 塊芯片,透過光學電路交換器實現組間互聯。
此次發布不僅展示谷歌在芯片設計上的技術深度,也反映其供應鏈策略的調整。
TPU 8t 由博通共同設計,主打極致性能,TPU 8i 則首次牽手聯發科,旨在優化成本與效率。
《華爾街見聞》報導指出,這種雙軌策略不僅讓谷歌能分別針對訓練和推理做深度定制,實現性能與成本的最優解,也透過多供應商布局打破了單一供應源的溢價與產能風險。
隨著 AI 算力重心從訓練全面轉向推理,谷歌憑藉這一軟硬一體的全端布局,正試圖在英偉達 (NVDA-US) 主導的市場中,透過極致性價比和專用化設計搶占更多企業級 AI 市占率。