摩爾線程S5000持續(xù)夯實(shí)DeepSeek-V4 Flash推理底座
關(guān)鍵詞: 摩爾線程 MTTS5000 DeepSeek 適配
近日,DeepSeek-V4 Flash在摩爾線程MTT S5000平臺上的推理性能實(shí)現(xiàn)顯著躍遷。5月下旬,InferenceX周度測試數(shù)據(jù)顯示,在統(tǒng)一測試口徑下,單并發(fā)場景模型單GPU吞吐較4月底基線提升約18.8倍,高批次并發(fā)場景下提升幅度進(jìn)一步放大至近80倍;同時(shí),首字時(shí)延(TTFT)、每字時(shí)延(TPOT)與端到端完成時(shí)間同步實(shí)現(xiàn)數(shù)量級下降。在8k/1k上下文長度、PD分離部署形態(tài)下,模型驗(yàn)證通過,線性擴(kuò)展能力也得到確認(rèn)。

圖示:SemiAnalysis旗下InferenceX性能測試平臺的連續(xù)測試數(shù)據(jù)顯示,在統(tǒng)一測試口徑下,DeepSeek-V4 Flash模型在摩爾線程MTT S5000平臺(基于 MUSA 軟件棧)上經(jīng)過多輪推理性能優(yōu)化,實(shí)現(xiàn)了推理吞吐的持續(xù)提升,并在數(shù)周內(nèi)將單GPU吞吐能力提升至早期基線的數(shù)十倍。
這組數(shù)據(jù)的核心意義在于“吞吐持續(xù)上升”、“時(shí)延持續(xù)下降”——這意味著優(yōu)化已深入模型執(zhí)行主鏈路,而非停留在表層調(diào)參。其背后是FlashMLA、DeepGEMM、DeepEP等核心算法模塊在DeepSeek-V4推理場景的快速深度優(yōu)化,TileKernels/TileLang現(xiàn)有實(shí)現(xiàn)的高效復(fù)用,以及圍繞DeepSeek-V4模型結(jié)構(gòu)持續(xù)高效率高質(zhì)量補(bǔ)齊自定義算子實(shí)現(xiàn)的系統(tǒng)性工程能力釋放。這一系列提升,是算子打磨、框架調(diào)優(yōu)、持續(xù)測試與性能回歸深度協(xié)同的結(jié)果,也標(biāo)志著一條可持續(xù)演進(jìn)的優(yōu)化鏈路正在形成。
摩爾線程以全功能GPU技術(shù)路線為根基,持續(xù)將前沿模型的推理潛力轉(zhuǎn)化為可落地、可復(fù)用的工程能力。從4月底建立性能基線,到5月下旬多維度指標(biāo)持續(xù)收斂,MTT S5000對DeepSeek-V4的完整支撐能力正在逐步夯實(shí),為國產(chǎn)AI算力底座注入更扎實(shí)的推理性能。
Day0適配完成,真正的工作才開始
在大模型推理場景中,適配成功通常意味著主鏈路已經(jīng)跑通、精度已經(jīng)對齊——這是一切后續(xù)工作的前提,但距離“可持續(xù)演進(jìn)的高質(zhì)量推理實(shí)現(xiàn)”仍然相當(dāng)遙遠(yuǎn)。模型結(jié)構(gòu)、注意力路徑、MoE 路由、量化鏈路以及長上下文壓縮路徑,都會在真實(shí)運(yùn)行中持續(xù)暴露新的開銷與瓶頸。
因此,真正有價(jià)值的工作方式,不是停留在某個(gè)靜態(tài)結(jié)果上,而是在統(tǒng)一測試入口上持續(xù)觀察、持續(xù)分析、持續(xù)回歸,把優(yōu)化過程本身沉淀為可管理、可復(fù)用、可繼續(xù)推進(jìn)的工程資產(chǎn)。
DeepSeek-V4 Flash推理性能的推進(jìn)過程正體現(xiàn)了這一點(diǎn):
inferenceX提供了持續(xù)的基準(zhǔn)測試(Benchmark)入口與結(jié)構(gòu)化結(jié)果沉淀;
SGLang本地代碼中的DeepSeek-V4/MUSA路徑也在不斷收斂出更適合該模型結(jié)構(gòu)的實(shí)現(xiàn);
性能結(jié)果的變化可以逐步與版本、實(shí)現(xiàn)路徑和具體優(yōu)化點(diǎn)建立對應(yīng)關(guān)系。
這條鏈路所呈現(xiàn)出的,不只是階段性的性能變化,更是聯(lián)合優(yōu)化如何發(fā)生、如何沉淀、如何持續(xù)推進(jìn)的完整方法論。
從周度數(shù)據(jù)看,優(yōu)化是持續(xù)發(fā)生的
在InferenceX的統(tǒng)一口徑下,DeepSeek-V4 Flash的 1k/1k 數(shù)據(jù)已經(jīng)形成連續(xù)時(shí)間序列。測試配置保持為dsv4flash + sglang + s5000 + fp8 + isl=1024 + osl=1024,因此不同日期之間的結(jié)果具備直接可比性。
從周度趨勢來看,這組結(jié)果最值得關(guān)注的并不是某個(gè)時(shí)間點(diǎn)的絕對值,而是多個(gè)核心指標(biāo)在同一階段內(nèi)同時(shí)朝著更優(yōu)方向收斂。吞吐持續(xù)抬升,TTFT、TPOT與端到端時(shí)延同步下降,說明優(yōu)化并不是停留在單點(diǎn)調(diào)參或局部修補(bǔ),而是在真實(shí)推理主鏈路上逐步釋放出來。
以單并發(fā)場景為例,從4月底到5月下旬,模型單GPU吞吐提升約18.8倍,TTFT、TPOT與端到端完成時(shí)間也都出現(xiàn)了數(shù)量級改善。這種“吞吐上升、時(shí)延下降”的同步變化,比單一峰值數(shù)字更能說明問題:底層優(yōu)化已經(jīng)開始在模型執(zhí)行主鏈路中形成穩(wěn)定收益。
如果把圖表中的變化連起來看,趨勢也比較清晰:
早期階段首先完成主鏈路打通,性能基線建立起來;
隨著框架路徑、熱點(diǎn)算子與執(zhí)行開銷逐步收斂,中低并發(fā)場景的吞吐和時(shí)延同步改善;
再往后,優(yōu)化收益開始向更高并發(fā)擴(kuò)展,規(guī)模化能力逐步釋放。
在更高batch形態(tài)下,單GPU吞吐的提升幅度還可以進(jìn)一步放大,階段性結(jié)果已經(jīng)接近80倍。這說明隨著執(zhí)行形態(tài)更充分地釋放暴露出框架調(diào)度、熱點(diǎn)算子和運(yùn)行期組織的收益,聯(lián)合優(yōu)化帶來的放大效應(yīng)會更加明顯。
這組周度變化勾勒出的,并不是若干離散結(jié)果,而是一條持續(xù)推進(jìn)的優(yōu)化軌跡。
從框架到算子:聯(lián)合優(yōu)化如何轉(zhuǎn)化為服務(wù)收益
如果只看到若干階段性的算子收益,很容易把模型的優(yōu)化理解成一組彼此獨(dú)立的局部提速。但在真實(shí)推理服務(wù)中,局部模塊變快并不天然等于整體收益成立。真正決定這些優(yōu)化能否穩(wěn)定轉(zhuǎn)化為吞吐提升、時(shí)延收斂和更大規(guī)模承載能力的,首先是框架層的組織能力:執(zhí)行路徑能否穩(wěn)定收斂,不同階段的運(yùn)行方式能否順暢切換,熱點(diǎn)模塊能否在合適場景下進(jìn)入更優(yōu)實(shí)現(xiàn),往往決定了后續(xù)算子收益能否真正落到服務(wù)主鏈路上。
結(jié)合現(xiàn)有實(shí)現(xiàn)與階段性材料,這條聯(lián)合優(yōu)化路徑至少包含三層相互配合的工作。第一層是框架執(zhí)行路徑的收斂,包括圖執(zhí)行能力開啟、運(yùn)行期路徑裁剪以及關(guān)鍵運(yùn)行時(shí)組織;第二層是面向服務(wù)形態(tài)的能力補(bǔ)齊,例如MTP支持、長上下文相關(guān)鏈路以及不同階段下的執(zhí)行切換;第三層才是圍繞具體熱點(diǎn)模塊,把FlashMLA、DeepGEMM、DeepEP、TileKernels/TileLang 以及 DeepSeek-V4特定路徑穩(wěn)定接入主執(zhí)行流。
也正因?yàn)槿绱?,這一章節(jié)更值得關(guān)注的,并不是“又增加了哪些局部優(yōu)化模塊”,而是框架與算子如何共同把收益落到真實(shí)推理鏈路中,實(shí)現(xiàn)從底層到應(yīng)用的全面性能躍升。結(jié)合現(xiàn)有實(shí)現(xiàn)與階段性測試記錄,可以把這條路徑概括為四類相互呼應(yīng)的聯(lián)合優(yōu)化樣式。
1、先讓優(yōu)化收益在運(yùn)行時(shí)穩(wěn)定“兌現(xiàn)”
很多優(yōu)化收益并不是先從峰值性能開始體現(xiàn),而是先體現(xiàn)在運(yùn)行時(shí)穩(wěn)定性上。對于DeepSeek V4這類路徑復(fù)雜、分支較多的模型來說,如果圖執(zhí)行過程容易被同步動作打斷,或者路由相關(guān)邏輯頻繁落回不穩(wěn)定路徑,那么后續(xù)再好的后端實(shí)現(xiàn)也很難穩(wěn)定釋放收益。
DeepSeek-V4 Flash在這部分的重點(diǎn),是先把框架主路徑收斂下來:優(yōu)先復(fù)用更成熟的實(shí)現(xiàn),不可用時(shí)再回退到MUSA / TileLang后端,并針對需要兼顧圖執(zhí)行穩(wěn)定性的部分補(bǔ)齊必要的兼容性處理,避免同步動作頻繁打斷執(zhí)行。這樣做的意義不只是減少某次執(zhí)行的卡頓或延遲,而是為后續(xù)更多優(yōu)化路徑提供穩(wěn)定的運(yùn)行時(shí)承載。
從外部視角看,這類工作不像典型的算子加速案例那樣直觀,但它直接決定了優(yōu)化收益能否在服務(wù)中穩(wěn)定“兌現(xiàn)”。很多時(shí)候,框架對執(zhí)行路徑、運(yùn)行時(shí)組織與兼容機(jī)制的處理,本身就是后端優(yōu)化能否真正釋放收益的前提。
2、把關(guān)鍵服務(wù)能力納入主執(zhí)行流
聯(lián)合優(yōu)化的第二個(gè)重點(diǎn),不是單點(diǎn)提速,而是把更貼近真實(shí)部署的能力真正納入主執(zhí)行流。MTP支持、長上下文相關(guān)路徑以及不同執(zhí)行階段之間的切換,本質(zhì)上都屬于框架層的能力建設(shè):它們決定了系統(tǒng)能以什么方式組織token生成、如何承接更長輸入,以及怎樣把不同場景下的后端收益有效承接。
DeepSeek-V4 Flash在這部分的演進(jìn),體現(xiàn)的正是這種能力補(bǔ)齊。壓縮相關(guān)信息、不同粒度的運(yùn)行時(shí)組織信息、FlashMLA相關(guān)運(yùn)行時(shí)信息,以及長上下文執(zhí)行所需的關(guān)鍵調(diào)度信息,都已經(jīng)進(jìn)入長上下文主路徑的核心邏輯。壓縮不再是額外附著在模型后的處理動作,而是直接成為主執(zhí)行鏈路的一部分;MTP相關(guān)能力的接入,也讓吞吐釋放不再只依賴單一路徑,而是開始具備更完整的服務(wù)化擴(kuò)展空間。
這類優(yōu)化的價(jià)值,不只是“某個(gè)后端實(shí)現(xiàn)更快”,而是框架已經(jīng)能夠把長上下文、分階段執(zhí)行和更復(fù)雜的生成路徑組織成穩(wěn)定能力。也正因?yàn)橛辛诉@樣的組織層,后端優(yōu)化才更容易在真實(shí)服務(wù)負(fù)載上持續(xù)兌現(xiàn)。
3、把高頻熱點(diǎn)穩(wěn)定接入主鏈路
在框架路徑逐步穩(wěn)定之后,熱點(diǎn)算子的接入方式就變得更關(guān)鍵,直接影響著整個(gè)推理鏈路的效率上限。RMSNorm、RoPE與 FlashMLA這類模塊都處在高頻主路徑上,一旦這里仍然存在額外的數(shù)據(jù)整理、包裝層開銷或不合適的后端路徑,損失就會被迅速放大到整個(gè)推理過程中。
DeepSeek-V4 Flash在這部分的優(yōu)化重點(diǎn),是讓框架先基于執(zhí)行階段和輸入形態(tài)識別更合適的后端路徑,再由更貼合場景的實(shí)現(xiàn)承接熱點(diǎn)負(fù)載。這樣做的意義在于,這些模塊不再被當(dāng)成固定的通用算子調(diào)用,而是被納入真實(shí)推理主路徑的整體調(diào)度之中。
階段性測試記錄也印證了這一點(diǎn)。融合后的歸一化與位置編碼路徑曾長期受制于額外的數(shù)據(jù)展開開銷與軟件棧包裝開銷;在張量表達(dá)方式與后端接入路徑調(diào)整之后,這類高頻基礎(chǔ)路徑的額外負(fù)擔(dān)被顯著壓低。類似地,在更貼近長上下文服務(wù)熱點(diǎn)的緩存寫入路徑上,F(xiàn)lashMLA相關(guān)優(yōu)化也持續(xù)體現(xiàn)出更高效的帶寬利用與更穩(wěn)定的主鏈路承接能力。這里減少的并不只是某個(gè)局部模塊的執(zhí)行時(shí)間,更是整條高頻路徑上的額外負(fù)擔(dān)。
4、讓熱點(diǎn)模塊具備按場景切換的能力
MoE路由、激活融合以及attention pre/post處理都屬于高頻熱點(diǎn),但不同輸入規(guī)模、不同階段、不同數(shù)據(jù)類型下的最優(yōu)路徑并不一致。如果仍然用單一路徑覆蓋全部場景,往往會在某些關(guān)鍵負(fù)載點(diǎn)上失去效率。因此,這一類路徑更重要的目標(biāo),是讓熱點(diǎn)模塊具備按場景切換的能力。
DeepSeek-V4 Flash在這部分已經(jīng)形成比較清晰的下沉方式。相關(guān)融合路由路徑并不是無條件啟用,而是會根據(jù)輸入形態(tài)、數(shù)據(jù)布局以及不同負(fù)載規(guī)模下的適配條件決定是否進(jìn)入優(yōu)化路徑;SwiGLU quant 也已經(jīng)分化出多種后端實(shí)現(xiàn);MHC前后處理路徑則圍繞不同并行組織方式、兼容方案以及不同執(zhí)行階段下的并行策略繼續(xù)細(xì)化。這樣的設(shè)計(jì)重點(diǎn)并不在于制造一個(gè)覆蓋全部場景的“超級實(shí)現(xiàn)”,而在于把幾個(gè)真正高頻的熱點(diǎn)模塊拆開下沉,再由框架層根據(jù)輸入規(guī)模、布局和運(yùn)行階段完成組織與選擇。
把這四類案例放在一起看,會更容易理解 DeepSeek-V4 Flash的聯(lián)合優(yōu)化邏輯:框架執(zhí)行路徑負(fù)責(zé)先把運(yùn)行時(shí)穩(wěn)定下來,MTP與長上下文鏈路負(fù)責(zé)補(bǔ)齊更貼近服務(wù)化場景的能力,熱點(diǎn)算子接入負(fù)責(zé)壓低主鏈路固定成本,而MoE相關(guān)模塊則負(fù)責(zé)把不同負(fù)載點(diǎn)上的效率持續(xù)抬高。這四者相輔相成,共同構(gòu)成了全面、深度的優(yōu)化體系。真正起作用的,并不是某一個(gè)局部提速點(diǎn),而是框架組織、執(zhí)行路徑選擇與熱點(diǎn)模塊優(yōu)化開始相互配合。它們并不是彼此獨(dú)立的局部修補(bǔ),而是在同一條推理鏈路中逐步收斂出來的協(xié)同結(jié)果。
8K~1M上下文長度驗(yàn)證:PD分離的線性擴(kuò)展能力
除了1k/1k的周度追蹤數(shù)據(jù),我們也采用 InferenceX 的統(tǒng)一測試方法,對isl=8K~1M, osl=1K 這類更長輸入用例進(jìn)行了階段性驗(yàn)證。結(jié)合PD分離部署形態(tài),這組觀察更適合放在服務(wù)化運(yùn)行條件下理解,用來說明在更長輸入、更貼近實(shí)際部署的場景中, DeepSeek-V4 Flash的推理鏈路已經(jīng)具備進(jìn)一步展開的基礎(chǔ)。
從目前的表現(xiàn)看,這類 8k/1k 用例至少傳遞出三層信息。第一,PD分離相關(guān)鏈路已經(jīng)不再停留在單點(diǎn)驗(yàn)證階段,而是開始具備更完整的部署成熟度,可以支撐對更長輸入場景的持續(xù)觀察。第二,從單機(jī)到更高并發(fā)的變化方向,與前文 1k/1k 周度趨勢是基本一致的:隨著并發(fā)提升,吞吐能力繼續(xù)放大,說明聯(lián)合優(yōu)化的收益并沒有局限在單一負(fù)載點(diǎn)。第三,在更高并發(fā)條件下,整體擴(kuò)展趨勢已經(jīng)呈現(xiàn)出較好的線性可擴(kuò)展性,這意味著PD分離場景下的執(zhí)行鏈路、調(diào)度組織與后端實(shí)現(xiàn)之間正在形成更穩(wěn)定的協(xié)同基礎(chǔ)。
后續(xù)方向:優(yōu)化路徑如何繼續(xù)演進(jìn)
從現(xiàn)有周度趨勢、階段性benchmark結(jié)果以及框架與算子兩側(cè)的實(shí)現(xiàn)收斂情況來看, DeepSeek-V4 Flash推理性能優(yōu)化的推進(jìn)已經(jīng)形成了幾項(xiàng)比較清晰的判斷:其一,圍繞該模型的優(yōu)化并不是單次跑通后的局部修補(bǔ),而是在統(tǒng)一測試方法下持續(xù)推進(jìn)的演進(jìn)過程,體現(xiàn)了系統(tǒng)化、工程化的優(yōu)化理念;其二,面向DeepSeek-V4 / MUSA的專用路徑已經(jīng)覆蓋RMSNorm、RoPE、compress、MoE routing、SwiGLU quant、MHC等多個(gè)關(guān)鍵方向形成了全面的優(yōu)化覆蓋;其三,這些收益并不是零散算子替換的簡單疊加,而是框架調(diào)度邏輯與后端實(shí)現(xiàn)逐步協(xié)同后的結(jié)果。
接下來更值得關(guān)注的,不再只是“還能不能繼續(xù)變快”,而是哪些優(yōu)化點(diǎn)最能解釋階段性躍遷、哪些路徑最能穩(wěn)定復(fù)用到更廣的部署場景中。沿著這條鏈路繼續(xù)推進(jìn)時(shí),尤其值得關(guān)注三個(gè)方向:關(guān)鍵執(zhí)行路徑切換前后的收益是否能夠形成更直接的對照,主要性能躍遷點(diǎn)與具體優(yōu)化項(xiàng)之間能否建立更清晰的對應(yīng)關(guān)系,以及哪些熱點(diǎn)路徑最值得優(yōu)先投入優(yōu)化資源。
這也意味著,圍繞 DeepSeek-V4 Flash形成的優(yōu)化路徑,正在從階段性收益逐步沉淀為可復(fù)用、可延續(xù)的工程能力。
結(jié)語
DeepSeek-V4 Flash在MTT S5000上的持續(xù)優(yōu)化,對應(yīng)著一條從模型適配、性能基線建立到持續(xù)優(yōu)化的完整工程鏈路。吞吐提升與時(shí)延收斂并不是彼此孤立的結(jié)果,而是測試體系、框架路徑與后端算子協(xié)同作用后的自然體現(xiàn)。
當(dāng)持續(xù)驗(yàn)證、路徑選擇與算子實(shí)現(xiàn)開始形成閉環(huán),推理優(yōu)化也就不再停留在零散的局部改進(jìn),而會逐步沉淀為穩(wěn)定、可延續(xù)的工程能力,最終賦能更廣闊的AI應(yīng)用場景。
▼ 開發(fā)者可下載鏡像進(jìn)行體驗(yàn):
registry.mthreads.com/mcconline/inference/sglang:v0.5.6.post2-ph1-4.3.5-torch2.9.0-20260530