DeepSeek V4將原生運(yùn)行于華為昇騰950PR芯片,阿里字節(jié)騰訊提前下單數(shù)十萬顆
關(guān)鍵詞: 深度求索 DeepSeekV4 華為昇騰 AI芯片 全棧國產(chǎn)化
據(jù)中國媒體及《The Information》等外媒報(bào)道,AI初創(chuàng)企業(yè)深度求索(DeepSeek)即將發(fā)布的新一代大語言模型V4,將完全運(yùn)行于華為昇騰950PR芯片之上,徹底打破業(yè)界"唯英偉達(dá)是從"的慣例。

重寫底層代碼 專注適配國產(chǎn)芯片
為確保V4在國產(chǎn)硬件上高效運(yùn)行,DeepSeek過去數(shù)月與華為及寒武紀(jì)密切合作,對模型底層程序進(jìn)行了大量調(diào)整與重寫,并同步開展測試驗(yàn)證。
據(jù)了解,V4采用了混合專家架構(gòu)(MoE),總參數(shù)量高達(dá)1萬億,每次推理激活約370億參數(shù),支持文本、圖像與代碼的多模態(tài)輸入。
適配過程中最耗時(shí)的并非算子重寫,而是精度對齊——同樣的模型在英偉達(dá)和昇騰上跑出一致結(jié)果,需要反復(fù)調(diào)試。據(jù)接近DeepSeek的工程師透露,V4如果跑順,相當(dāng)于為國產(chǎn)AI芯片陣營發(fā)了一張"質(zhì)量保證"的合格證。

打破慣例:未向英偉達(dá)開放測試
與以往AI模型開發(fā)優(yōu)先適配美系芯片的慣例不同,DeepSeek此次未向美國AI芯片供應(yīng)商開放測試,而是將國產(chǎn)芯片廠商置于優(yōu)先位置。
今年英偉達(dá)GTC大會上,發(fā)言的是月之暗面創(chuàng)始人楊植麟,而非DeepSeek代表。業(yè)內(nèi)猜測,DeepSeek拒絕了英偉達(dá)提前獲取V4內(nèi)核的權(quán)限。
《金融時(shí)報(bào)》爆料,DeepSeek之前拿昇騰訓(xùn)練推理模型時(shí)曾遭遇穩(wěn)定性難題——芯片穩(wěn)定性差、互聯(lián)速度慢、軟件工具鏈不成熟。從栽跟頭到今天V4能直接跑在昇騰上,中間踩了多少坑,只有他們自己知道。
華為昇騰950PR:性能對標(biāo)H20
DeepSeek V4的推理將運(yùn)行在華為今年3月發(fā)布的昇騰950PR處理器上。該芯片采用中芯國際7nm工藝,搭載華為自研達(dá)芬奇架構(gòu),主要性能參數(shù)包括:
算力:FP8精度下1 PFLOPS,F(xiàn)P4精度下2 PFLOPS,是英偉達(dá)H20的2.87倍
內(nèi)存:搭載華為首款自研高帶寬內(nèi)存HiBL 1.0,容量112GB,帶寬1.4TB/s
互聯(lián)帶寬:2TB/s
軟件生態(tài):CANN Next兼容CUDA,新增SIMT編程模型,可直接適配英偉達(dá)代碼環(huán)境
華為還計(jì)劃2026年生產(chǎn)約60萬枚昇騰910C芯片,達(dá)到2025年產(chǎn)量的兩倍,并目標(biāo)在2026年將昇騰產(chǎn)品線總產(chǎn)量推高至160萬片。
科技巨頭提前搶貨:訂單達(dá)數(shù)十萬顆
為應(yīng)對基于V4模型的云服務(wù)上線需求,阿里巴巴、字節(jié)跳動和騰訊等中國科技巨頭已提前向華為下單,訂單總量達(dá)數(shù)十萬顆昇騰950PR芯片。需求激增直接推動了該芯片價(jià)格上漲約20%。
據(jù)IDC數(shù)據(jù),2025年中國AI加速服務(wù)器市場中,本土芯片廠商的市占率已攀升至約41%;其中華為憑借昇騰系列產(chǎn)品,以81.2萬張出貨量占據(jù)國產(chǎn)芯片總出貨量的近一半。

兩個(gè)變體版本 全棧國產(chǎn)化
DeepSeek還同步開發(fā)了兩款針對不同應(yīng)用場景優(yōu)化的V4衍生版本,同樣基于中國芯片設(shè)計(jì)。
業(yè)內(nèi)分析指出,DeepSeek V4"換芯"事件的影響遠(yuǎn)超單個(gè)公司或產(chǎn)品層面。它標(biāo)志著國產(chǎn)AI芯片正式走向前臺,正在逐步取代美系A(chǔ)I芯片。如果DeepSeek在一兩年內(nèi)做到推理和訓(xùn)練都在昇騰上跑,編譯器、算子、通信庫、分布式訓(xùn)練、推理框架都穩(wěn)定,那么它的核心模型生產(chǎn)流程就可以基本脫離CUDA。
中國AI產(chǎn)業(yè)正在走出一條屬于自己的道路。這條道路或許更加崎嶇,但每一步都在讓未來的自主之路越走越寬。