國內推理 GPU 獨角獸曦望再獲超 10 億元融資，重構 AI 推理

2026-04-21 來源：曦望

4月20日，國內全棧自研AI推理GPU企業曦望（Sunrise）宣布完成新一輪超10億元人民幣融資。這是2026年AI產業全面邁入“推理落地、智能體普及”時代后，國內GPU賽道誕生的最大單筆融資之一。至此，分拆獨立僅一年多的曦望已累計完成七輪融資，總融資額約40億元，成為國內首家估值超百億的純推理GPU獨角獸。

本輪融資資金將主要用于新一代S3推理GPU的規模化量產交付、全棧軟件生態建設，以及S4/S5后續芯片的研發迭代。

智能體元年，推理算力成最大產業瓶頸

2026年被行業公認為“AI智能體元年”。隨著大模型從“會聊天”進化為“會思考、會執行”的數字員工，推理需求迎來爆發式增長。英偉達GTC 2026大會正式宣告AI產業全面邁入“推理落地、智能體普及”的新時代，將“每瓦Token吞吐量”定義為AI時代的核心競爭力。這與曦望自創立之初就鎖定的核心戰場高度契合。

“AI 算力基建的重心已徹底切換。”曦望董事長徐冰表示，“2026 年 AI 推理計算需求將達到訓練需求的 4-5 倍，推理算力租賃價格半年漲幅近 40%。”

不同于行業主流的"訓推一體"路線，曦望從成立第一天起就堅定All-in推理賽道，以用戶真實的Token成本、單位能耗和服務穩定性為芯片設計核心。目前公司已推進三代推理GPU迭代、數萬顆GPU量產落地，實現了從芯片研發、產品量產到解決方案交付的完整閉環，并保持“芯片均實現一次性流片成功、流片后性能符合設計預期”的行業一流標準。

啟望S3：為Agentic AI重構的推理原生架構

2026年1月，曦望正式發布新一代旗艦產品啟望S3推理GPU。這是國內首款搭載LPDDR6且兼容LPDDR5X內存的推理GPU，它沒有盲目照搬高端訓練GPU的HBM顯存路線，而是基于Agent推理的本質需求，從AI Core計算架構到內存IO系統進行了全鏈路重構。

以OpenClaw為代表的智能體推理，“感知—規劃—執行—反饋”高頻循環，帶來了對KV-cache密集訪問的全新計算負載。而通用GPU面向訓練優化，推理實際算力利用率往往遠低于峰值——推理側的效率瓶頸已不再是“算力不夠”，而是“算力用不滿”。

這正是S3所押注的結構性機會：放棄訓練能力，專為大模型推理做原生深度定制。通過裁剪訓練態所需的模塊，將節省出的晶體管與功耗預算集中投向推理，讓單位面積有效算力效率提升5倍以上。

計算層：專為推理而生的AI Core架構升級

S3通過計算層的深度定制，解決了通用GPU“算力用不滿”的核心痛點，推理性能較上一代S2提升5倍，目標實現Token成本下降90%。

1. 逼近物理極限的算子利用率

大語言模型推理中，GEMM與Attention算子占總計算量的90%以上，但受限于通用架構的設計約束，這兩項核心算子的實際利用率通常遠低于理論峰值。S3將這GEMM和Flash Attention兩項核心算子的利用率分別推至約99%與98%，標稱算力幾乎都轉化為有效吞吐，同樣硬件投入可服務更多并發請求。

2. Agent原生的指令集與微架構

采用128-bit指令集+支持3D指令，指令密度領先傳統SIMT架構；獨立線程調度精準匹配智能體復雜控制流，消除條件跳轉帶來的流水線代價；通過Block cluster和Broadcast等技術實現片上數據復用，減少對外帶寬依賴，大幅提升Agent多輪推理效率。

3. FP4全鏈路低精度，吞吐3-4倍躍升

原生支持FP16至FP4全鏈路低精度運算，在DeepSeek V3/R1等主流模型上實現接近無損的FP4推理，吞吐量較FP16提升3-4倍，直接轉化為客戶側的毛利空間和價格彈性。

系統層：三大接口技術破解智能體核心瓶頸

S3創新性地集成了三大先進高速接口技術，從內存和IO兩個推理時代最核心的瓶頸入手，解決了智能體三大核心瓶頸。

1. LPDDR6內存接口技術，解決智能體的“顯存生死線”問題

大模型推理的一個核心特征是，在高并發、長上下文的主流云端推理場景中，KV Cache 的顯存占比可超過 80%，且隨并發用戶數線性增長。S3 采用的 LPDDR6 方案，在提供足夠推理帶寬的同時，將顯存容量上限大幅提高，且功耗降低50%，匹配推理場景“大容量、高性價比、低功耗”的核心需求。同時，LPDDR6 與 LPDDR5x 兼容的設計，讓 S3 可以推出不同顯存規格的產品版本，覆蓋從邊緣到云端的各類推理場景，無需重新設計芯片。

2. 高速SerDes+SUE融合互聯技術，解決智能體的“多模型協同瓶頸”

曦望踐行“軟件定義互聯”的設計思路，對推理場景下的互聯架構進行了深度優化。從超節點協議、片上互聯、片間互聯、交換設備、高速通信軟件棧協同設計，實現TCO 與性能兼顧的推理互聯系統。

Agent 時代的到來，對推理集群的互聯性能提出了前所未有的要求——一個 Agent 請求會觸發數十次推理調用，涉及多模型協同與海量 KV Cache 流轉，如果互聯帶寬不足、協議割裂、延遲太高，整個系統的性能會出現超線性下降，集群規模越大，性能損失越嚴重。

S3 創新性地在片上原生融合了 Scale-Up 超節點與 Scale-Out 的雙模互聯底座。在超節點通信域，S3 搭載基于以太網的超節點互聯引擎，支持 load/store 內存語義與 UVA 統一編址，任意兩卡間一跳直達，為 AllReduce/AlltoAll 等集合通信提供硬件級加速；S3 選擇基于以太網的超節點方案，具備雙重優勢：既可利舊復用標準以太網交換機節省組網成本，又可無縫接入支持超低延遲能力的增強型交換機，將端到端延遲壓縮至百納秒級，性能逼近專有互聯協議。基于超節點和DeepEP實現的MoE超大模型推理系統，可以很大程度掩蓋LPDDR相較于HBM的帶寬劣勢。另外，S3 在片上集成了 RDMA 通信引擎，專為 PD 分離架構下的超長上下文 KV Cache 傳輸進行優化，實現跨節點 KV Cache 的零拷貝、高吞吐傳輸，突破分離式架構的內存墻瓶頸。在組網上 S3 支持 32/64/128/256 彈性擴展能力，為不同算力密度的推理場景提供靈活選擇。

3. PCIe Gen6接口技術，解決智能體的“資源碎片化”問題

云原生推理時代，超長上下文已成為大模型標配能力，千億參數模型在處理數萬 Token 序列時，單請求 KV Cache 占用可達數百 GB 甚至 TB 級，傳統 PCIe 帶寬瓶頸成為制約 KV Cache 高效管理的沉重枷鎖。S3 搭載的 PCIe Gen6 接口，帶寬較 Gen5 翻倍，可同時滿載多路高速網卡與 NVMe 存儲集群，滿足云原生推理的高并發數據吞吐需求；通過 PCIe Gen6的高帶寬讓CPU DRAM 真正成為 S3 顯存的擴展池。可構建起顯存-DRAM-NVMe 三層異構 KV Cache 架構：熱數據駐留顯存保證低延遲的訪問，溫數據通過 PCIe Gen6 擴展至 CPU DRAM實現容量倍增，冷數據則下沉至 NVMe SSD 持久化存儲，解決智能體的資源碎片化問題。

“推理原生”帶來普惠算力基礎設施

從產業周期看，訓練側格局已相對固化，而推理側正隨Agentic AI放量進入指數級增長通道——多家機構預測，未來五年推理算力市場規模將超越訓練側數倍，其中Agent類負載將貢獻最主要的增量。

曦望S3同時具備三個難以共存的要素：推理原生的架構前瞻性、實現98–99%算子利用率的頂尖工程能力、以及完整的生態適配能力。

“S3不是簡單的性能升級，而是一次對AI推理成本曲線的重構。”徐冰表示，“我們的目標是將推理成本降至‘百萬Token一分錢’，讓AI像水電一樣成為普惠基礎設施。”

資本助力推理賽道進入加速期

本輪融資由多家產業方戰投、地方國資及頭部財務機構共同參與。

杭州資本表示：“本次投資是杭州資本緊扣杭州‘296X’先進制造業集群建設戰略、深耕人工智能萬億級產業賽道的重要布局。曦望‘All-in 推理’的戰略選擇具備行業前瞻性，其在技術創新和產品商業化方面的能力，是我們決定投資的重要原因。作為長期資本，我們更看重企業在關鍵技術方向上的持續投入與落地能力。”

普華資本表示，“曦望是國內少數真正理解推理場景、并能提供全棧自主可控解決方案的企業。我們看好公司'不做訓推一體跟隨者，只做推理賽道領跑者'的戰略選擇。”

聚集頂尖人才，打造中國AI工業化算力底座

曦望團隊規模已增長至400人，研發人員占比超80%，匯聚了來自英偉達、AMD、華為海思等國內外頂尖芯片企業的核心人才，碩士及以上學歷占比超80%。團隊融合了芯片設計、高性能計算、AI 算法、軟硬產品的跨行業人才。

2026年，曦望將圍繞“落地、兌現、增長”核心原則，全力推進S3芯片量產交付，完成與國內外主流大模型、多模態模型和Agent框架的全面適配。同時，公司已完成S4高性能推理GPU和S5安全可控推理GPU的技術路線規劃，持續加碼近存計算、光電共封等前沿技術探索。

未來，曦望將繼續堅守“讓AI推理便宜、穩定、隨處可用”的核心目標，為中國AI發展鑄造堅實的算力底座。

行業動態

乾照光電：已推出CPO高速樣機驗證性能

蘋果拒絕提交數據遭聽證會通牒，380億美元天價罰單懸頂

數萬億韓元！三星SDI與奔馳達成首個EV電池供應協議

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產