AI芯片“分工”時刻來臨！谷歌第八代TPU為什么要拆分成兩款獨立芯片？

2026-04-23 來源：鉅亨網

在周三 (22 日) 舉行的 Google Cloud Next 2026 大會上，谷歌(GOOGL-US) 正式發布其第八代張量處理器 (TPU) 的兩款全新產品，專為 AI 模型訓練設計的 TPU 8t 與專為推理優化的 TPU 8i，這是谷歌史上首次將訓練與推理任務拆分至獨立芯片，標志著其 AI 硬體策略的重大轉向。

谷歌兩款芯片均打算在今年稍晚正式對外供應，旨在透過專項優化應對日益分化的 AI 工作負載，并以更具成本效益的方式提供大規模吞吐量和低延遲，滿足數百萬個 AI 智能體同時運行的需求。

谷歌此次戰略調整是對 AI 計算特性分化的直接回應。隨著 AI 智能體興起，預訓練、后訓練與即時推理在運算需求上已顯著不同；訓練任務追求極致的吞吐量與規模擴展，而推理任務則對延遲和并發更為敏感。

谷歌資深副總裁兼 AI 與基礎設施技術長 Amin Vahdat 指出，業界將受惠于針對這兩類需求專門優化的芯片。

Alphabet 執行長皮查伊也強調，這項架構旨在以低成本提供大規模算力。從市場角度來看，統一芯片往往導致某一場景下的資源浪費，而雙芯片策略能顯著提升價格效能比，降低云端 AI 基礎設施的整體擁有成本。

在效能數據上，第八代 TPU 相比去年 11 月發布的第七代 Ironwood 有了巨大飛躍。 TPU 8t 在同等價格下效能提升 2.8 倍，TPU 8i 效能提升 80%，兩款芯片的能源效率表現特別亮眼，

此外，每瓦效能均較上一代提升逾一倍，其中 TPU 8t 達到 124%，TPU 8i 達到 117%，兩款芯片均整合了基于安謀架構的 Axion CPU，以消除資料預處理延遲造成的主機側瓶頸，確保 TPU 運算單位持續滿載運作。第八代 TPU 延續了成熟的軟體體系，支援 JAX、PyTorch、Keras 及 vLLM 等主流框架，原生 PyTorch 支援現已進入預覽階段，使用者可直接遷移模型而無需修改程式碼。

TPU 8t 定位為超大規模訓練的算力引擎，號稱能將前沿模型的開發周期從數月壓縮至數周。

在規模上，它最多可將 9600 塊芯片組合為單一超級運算節點，并透過 JAX 與 Pathways 框架將分散式訓練擴展至單一集群超過 100 萬塊芯片，其核心技術創新包括：專門處理嵌入查找的 SparseCore 加速器、原生 FP4 支援 (使 MXU 吞吐量翻倍并降低能耗)，以及更均衡的向量處理單元擴展設計。

網路層面引進了全新的 Virgo 架構，數據中心網路頻寬提升最高 4 倍，芯片間互聯頻寬提升 2 倍，單一網路可連接逾 13.4 萬個芯片。

儲存方面則透過 TPUDirect 技術繞過 CPU 直接傳輸數據，存取速度提升 10 倍，確保處理大規模多模態資料集時算力不閑置。

TPU 8i 則面向高并發推理場景，重心在于降低延遲與提升并發處理能力，其最顯著的硬體特征是整合了 384MB 靜態隨機存取存儲器，容量是上一代的三倍，可將更大的 KV Cache 保留在片上，大幅減少長上下文解碼的等待時間。

此外，它引入了集合加速引擎 (CAE)，專門加速自回歸解碼與思維鏈處理，使片上集合操作延遲降低 5 倍。

在網路拓撲上，TPU 8i 放棄了傳統的 3D 環面結構，轉而采用全新的 Boardfly 互聯拓撲，將最大跳數壓縮至 7 跳，全對全通訊延遲改善最高 50%，這對混合專家模型和頻繁的跨芯片令牌路由極為有利。TPU 8i 的 Pod 規模可擴展至 1152 塊芯片，透過光學電路交換器實現組間互聯。

此次發布不僅展示谷歌在芯片設計上的技術深度，也反映其供應鏈策略的調整。

TPU 8t 由博通共同設計，主打極致性能，TPU 8i 則首次牽手聯發科，旨在優化成本與效率。

《華爾街見聞》報導指出，這種雙軌策略不僅讓谷歌能分別針對訓練和推理做深度定制，實現性能與成本的最優解，也透過多供應商布局打破了單一供應源的溢價與產能風險。

隨著 AI 算力重心從訓練全面轉向推理，谷歌憑藉這一軟硬一體的全端布局，正試圖在英偉達 (NVDA-US) 主導的市場中，透過極致性價比和專用化設計搶占更多企業級 AI 市占率。