DeepSeek V4將原生運行于華為昇騰950PR芯片,阿里字節騰訊提前下單數十萬顆
關鍵詞: 深度求索 DeepSeekV4 華為昇騰 AI芯片 全棧國產化
據中國媒體及《The Information》等外媒報道,AI初創企業深度求索(DeepSeek)即將發布的新一代大語言模型V4,將完全運行于華為昇騰950PR芯片之上,徹底打破業界"唯英偉達是從"的慣例。

重寫底層代碼 專注適配國產芯片
為確保V4在國產硬件上高效運行,DeepSeek過去數月與華為及寒武紀密切合作,對模型底層程序進行了大量調整與重寫,并同步開展測試驗證。
據了解,V4采用了混合專家架構(MoE),總參數量高達1萬億,每次推理激活約370億參數,支持文本、圖像與代碼的多模態輸入。
適配過程中最耗時的并非算子重寫,而是精度對齊——同樣的模型在英偉達和昇騰上跑出一致結果,需要反復調試。據接近DeepSeek的工程師透露,V4如果跑順,相當于為國產AI芯片陣營發了一張"質量保證"的合格證。

打破慣例:未向英偉達開放測試
與以往AI模型開發優先適配美系芯片的慣例不同,DeepSeek此次未向美國AI芯片供應商開放測試,而是將國產芯片廠商置于優先位置。
今年英偉達GTC大會上,發言的是月之暗面創始人楊植麟,而非DeepSeek代表。業內猜測,DeepSeek拒絕了英偉達提前獲取V4內核的權限。
《金融時報》爆料,DeepSeek之前拿昇騰訓練推理模型時曾遭遇穩定性難題——芯片穩定性差、互聯速度慢、軟件工具鏈不成熟。從栽跟頭到今天V4能直接跑在昇騰上,中間踩了多少坑,只有他們自己知道。
華為昇騰950PR:性能對標H20
DeepSeek V4的推理將運行在華為今年3月發布的昇騰950PR處理器上。該芯片采用中芯國際7nm工藝,搭載華為自研達芬奇架構,主要性能參數包括:
算力:FP8精度下1 PFLOPS,FP4精度下2 PFLOPS,是英偉達H20的2.87倍
內存:搭載華為首款自研高帶寬內存HiBL 1.0,容量112GB,帶寬1.4TB/s
互聯帶寬:2TB/s
軟件生態:CANN Next兼容CUDA,新增SIMT編程模型,可直接適配英偉達代碼環境
華為還計劃2026年生產約60萬枚昇騰910C芯片,達到2025年產量的兩倍,并目標在2026年將昇騰產品線總產量推高至160萬片。
科技巨頭提前搶貨:訂單達數十萬顆
為應對基于V4模型的云服務上線需求,阿里巴巴、字節跳動和騰訊等中國科技巨頭已提前向華為下單,訂單總量達數十萬顆昇騰950PR芯片。需求激增直接推動了該芯片價格上漲約20%。
據IDC數據,2025年中國AI加速服務器市場中,本土芯片廠商的市占率已攀升至約41%;其中華為憑借昇騰系列產品,以81.2萬張出貨量占據國產芯片總出貨量的近一半。

兩個變體版本 全棧國產化
DeepSeek還同步開發了兩款針對不同應用場景優化的V4衍生版本,同樣基于中國芯片設計。
業內分析指出,DeepSeek V4"換芯"事件的影響遠超單個公司或產品層面。它標志著國產AI芯片正式走向前臺,正在逐步取代美系AI芯片。如果DeepSeek在一兩年內做到推理和訓練都在昇騰上跑,編譯器、算子、通信庫、分布式訓練、推理框架都穩定,那么它的核心模型生產流程就可以基本脫離CUDA。
中國AI產業正在走出一條屬于自己的道路。這條道路或許更加崎嶇,但每一步都在讓未來的自主之路越走越寬。