一女被两男吃奶添下A片V|一级特黄特色|免费国产麻豆传|当今社会现象|国产精品日韩精品久久99|韩国深夜成人节目|成人做爰www免费看视频韩国

<legend id="owodb"><tr id="owodb"></tr></legend>

<object id="owodb"></object>

<tr id="owodb"></tr>

^{<tr id="owodb"></tr>}

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺電子信息窗口

登錄| 注冊

摩爾線程S5000持續(xù)夯實(shí)DeepSeek-V4 Flash推理底座

2026-06-03 來源：摩爾線程

219

關(guān)鍵詞：摩爾線程 MTTS5000 DeepSeek 適配

近日，DeepSeek-V4 Flash在摩爾線程MTT S5000平臺上的推理性能實(shí)現(xiàn)顯著躍遷。5月下旬，InferenceX周度測試數(shù)據(jù)顯示，在統(tǒng)一測試口徑下，單并發(fā)場景模型單GPU吞吐較4月底基線提升約18.8倍，高批次并發(fā)場景下提升幅度進(jìn)一步放大至近80倍；同時(shí)，首字時(shí)延（TTFT）、每字時(shí)延（TPOT）與端到端完成時(shí)間同步實(shí)現(xiàn)數(shù)量級下降。在8k/1k上下文長度、PD分離部署形態(tài)下，模型驗(yàn)證通過，線性擴(kuò)展能力也得到確認(rèn)。

圖示：SemiAnalysis旗下InferenceX性能測試平臺的連續(xù)測試數(shù)據(jù)顯示，在統(tǒng)一測試口徑下，DeepSeek-V4 Flash模型在摩爾線程MTT S5000平臺（基于 MUSA 軟件棧）上經(jīng)過多輪推理性能優(yōu)化，實(shí)現(xiàn)了推理吞吐的持續(xù)提升，并在數(shù)周內(nèi)將單GPU吞吐能力提升至早期基線的數(shù)十倍。

這組數(shù)據(jù)的核心意義在于“吞吐持續(xù)上升”、“時(shí)延持續(xù)下降”——這意味著優(yōu)化已深入模型執(zhí)行主鏈路，而非停留在表層調(diào)參。其背后是FlashMLA、DeepGEMM、DeepEP等核心算法模塊在DeepSeek-V4推理場景的快速深度優(yōu)化，TileKernels/TileLang現(xiàn)有實(shí)現(xiàn)的高效復(fù)用，以及圍繞DeepSeek-V4模型結(jié)構(gòu)持續(xù)高效率高質(zhì)量補(bǔ)齊自定義算子實(shí)現(xiàn)的系統(tǒng)性工程能力釋放。這一系列提升，是算子打磨、框架調(diào)優(yōu)、持續(xù)測試與性能回歸深度協(xié)同的結(jié)果，也標(biāo)志著一條可持續(xù)演進(jìn)的優(yōu)化鏈路正在形成。

摩爾線程以全功能GPU技術(shù)路線為根基，持續(xù)將前沿模型的推理潛力轉(zhuǎn)化為可落地、可復(fù)用的工程能力。從4月底建立性能基線，到5月下旬多維度指標(biāo)持續(xù)收斂，MTT S5000對DeepSeek-V4的完整支撐能力正在逐步夯實(shí)，為國產(chǎn)AI算力底座注入更扎實(shí)的推理性能。

Day0適配完成，真正的工作才開始

在大模型推理場景中，適配成功通常意味著主鏈路已經(jīng)跑通、精度已經(jīng)對齊——這是一切后續(xù)工作的前提，但距離“可持續(xù)演進(jìn)的高質(zhì)量推理實(shí)現(xiàn)”仍然相當(dāng)遙遠(yuǎn)。模型結(jié)構(gòu)、注意力路徑、MoE 路由、量化鏈路以及長上下文壓縮路徑，都會在真實(shí)運(yùn)行中持續(xù)暴露新的開銷與瓶頸。

因此，真正有價(jià)值的工作方式，不是停留在某個(gè)靜態(tài)結(jié)果上，而是在統(tǒng)一測試入口上持續(xù)觀察、持續(xù)分析、持續(xù)回歸，把優(yōu)化過程本身沉淀為可管理、可復(fù)用、可繼續(xù)推進(jìn)的工程資產(chǎn)。

DeepSeek-V4 Flash推理性能的推進(jìn)過程正體現(xiàn)了這一點(diǎn)：

inferenceX提供了持續(xù)的基準(zhǔn)測試(Benchmark)入口與結(jié)構(gòu)化結(jié)果沉淀；
SGLang本地代碼中的DeepSeek-V4/MUSA路徑也在不斷收斂出更適合該模型結(jié)構(gòu)的實(shí)現(xiàn)；
性能結(jié)果的變化可以逐步與版本、實(shí)現(xiàn)路徑和具體優(yōu)化點(diǎn)建立對應(yīng)關(guān)系。

這條鏈路所呈現(xiàn)出的，不只是階段性的性能變化，更是聯(lián)合優(yōu)化如何發(fā)生、如何沉淀、如何持續(xù)推進(jìn)的完整方法論。

從周度數(shù)據(jù)看，優(yōu)化是持續(xù)發(fā)生的

在InferenceX的統(tǒng)一口徑下，DeepSeek-V4 Flash的 1k/1k 數(shù)據(jù)已經(jīng)形成連續(xù)時(shí)間序列。測試配置保持為dsv4flash + sglang + s5000 + fp8 + isl=1024 + osl=1024，因此不同日期之間的結(jié)果具備直接可比性。

從周度趨勢來看，這組結(jié)果最值得關(guān)注的并不是某個(gè)時(shí)間點(diǎn)的絕對值，而是多個(gè)核心指標(biāo)在同一階段內(nèi)同時(shí)朝著更優(yōu)方向收斂。吞吐持續(xù)抬升，TTFT、TPOT與端到端時(shí)延同步下降，說明優(yōu)化并不是停留在單點(diǎn)調(diào)參或局部修補(bǔ)，而是在真實(shí)推理主鏈路上逐步釋放出來。

以單并發(fā)場景為例，從4月底到5月下旬，模型單GPU吞吐提升約18.8倍，TTFT、TPOT與端到端完成時(shí)間也都出現(xiàn)了數(shù)量級改善。這種“吞吐上升、時(shí)延下降”的同步變化，比單一峰值數(shù)字更能說明問題：底層優(yōu)化已經(jīng)開始在模型執(zhí)行主鏈路中形成穩(wěn)定收益。

如果把圖表中的變化連起來看，趨勢也比較清晰：

早期階段首先完成主鏈路打通，性能基線建立起來；
隨著框架路徑、熱點(diǎn)算子與執(zhí)行開銷逐步收斂，中低并發(fā)場景的吞吐和時(shí)延同步改善；
再往后，優(yōu)化收益開始向更高并發(fā)擴(kuò)展，規(guī)模化能力逐步釋放。

在更高batch形態(tài)下，單GPU吞吐的提升幅度還可以進(jìn)一步放大，階段性結(jié)果已經(jīng)接近80倍。這說明隨著執(zhí)行形態(tài)更充分地釋放暴露出框架調(diào)度、熱點(diǎn)算子和運(yùn)行期組織的收益，聯(lián)合優(yōu)化帶來的放大效應(yīng)會更加明顯。

這組周度變化勾勒出的，并不是若干離散結(jié)果，而是一條持續(xù)推進(jìn)的優(yōu)化軌跡。

從框架到算子：聯(lián)合優(yōu)化如何轉(zhuǎn)化為服務(wù)收益

如果只看到若干階段性的算子收益，很容易把模型的優(yōu)化理解成一組彼此獨(dú)立的局部提速。但在真實(shí)推理服務(wù)中，局部模塊變快并不天然等于整體收益成立。真正決定這些優(yōu)化能否穩(wěn)定轉(zhuǎn)化為吞吐提升、時(shí)延收斂和更大規(guī)模承載能力的，首先是框架層的組織能力：執(zhí)行路徑能否穩(wěn)定收斂，不同階段的運(yùn)行方式能否順暢切換，熱點(diǎn)模塊能否在合適場景下進(jìn)入更優(yōu)實(shí)現(xiàn)，往往決定了后續(xù)算子收益能否真正落到服務(wù)主鏈路上。

結(jié)合現(xiàn)有實(shí)現(xiàn)與階段性材料，這條聯(lián)合優(yōu)化路徑至少包含三層相互配合的工作。第一層是框架執(zhí)行路徑的收斂，包括圖執(zhí)行能力開啟、運(yùn)行期路徑裁剪以及關(guān)鍵運(yùn)行時(shí)組織；第二層是面向服務(wù)形態(tài)的能力補(bǔ)齊，例如MTP支持、長上下文相關(guān)鏈路以及不同階段下的執(zhí)行切換；第三層才是圍繞具體熱點(diǎn)模塊，把FlashMLA、DeepGEMM、DeepEP、TileKernels/TileLang 以及 DeepSeek-V4特定路徑穩(wěn)定接入主執(zhí)行流。

也正因?yàn)槿绱?，這一章節(jié)更值得關(guān)注的，并不是“又增加了哪些局部優(yōu)化模塊”，而是框架與算子如何共同把收益落到真實(shí)推理鏈路中，實(shí)現(xiàn)從底層到應(yīng)用的全面性能躍升。結(jié)合現(xiàn)有實(shí)現(xiàn)與階段性測試記錄，可以把這條路徑概括為四類相互呼應(yīng)的聯(lián)合優(yōu)化樣式。

1、先讓優(yōu)化收益在運(yùn)行時(shí)穩(wěn)定“兌現(xiàn)”

很多優(yōu)化收益并不是先從峰值性能開始體現(xiàn)，而是先體現(xiàn)在運(yùn)行時(shí)穩(wěn)定性上。對于DeepSeek V4這類路徑復(fù)雜、分支較多的模型來說，如果圖執(zhí)行過程容易被同步動作打斷，或者路由相關(guān)邏輯頻繁落回不穩(wěn)定路徑，那么后續(xù)再好的后端實(shí)現(xiàn)也很難穩(wěn)定釋放收益。

DeepSeek-V4 Flash在這部分的重點(diǎn)，是先把框架主路徑收斂下來：優(yōu)先復(fù)用更成熟的實(shí)現(xiàn)，不可用時(shí)再回退到MUSA / TileLang后端，并針對需要兼顧圖執(zhí)行穩(wěn)定性的部分補(bǔ)齊必要的兼容性處理，避免同步動作頻繁打斷執(zhí)行。這樣做的意義不只是減少某次執(zhí)行的卡頓或延遲，而是為后續(xù)更多優(yōu)化路徑提供穩(wěn)定的運(yùn)行時(shí)承載。

從外部視角看，這類工作不像典型的算子加速案例那樣直觀，但它直接決定了優(yōu)化收益能否在服務(wù)中穩(wěn)定“兌現(xiàn)”。很多時(shí)候，框架對執(zhí)行路徑、運(yùn)行時(shí)組織與兼容機(jī)制的處理，本身就是后端優(yōu)化能否真正釋放收益的前提。

2、把關(guān)鍵服務(wù)能力納入主執(zhí)行流

聯(lián)合優(yōu)化的第二個(gè)重點(diǎn)，不是單點(diǎn)提速，而是把更貼近真實(shí)部署的能力真正納入主執(zhí)行流。MTP支持、長上下文相關(guān)路徑以及不同執(zhí)行階段之間的切換，本質(zhì)上都屬于框架層的能力建設(shè)：它們決定了系統(tǒng)能以什么方式組織token生成、如何承接更長輸入，以及怎樣把不同場景下的后端收益有效承接。

DeepSeek-V4 Flash在這部分的演進(jìn)，體現(xiàn)的正是這種能力補(bǔ)齊。壓縮相關(guān)信息、不同粒度的運(yùn)行時(shí)組織信息、FlashMLA相關(guān)運(yùn)行時(shí)信息，以及長上下文執(zhí)行所需的關(guān)鍵調(diào)度信息，都已經(jīng)進(jìn)入長上下文主路徑的核心邏輯。壓縮不再是額外附著在模型后的處理動作，而是直接成為主執(zhí)行鏈路的一部分；MTP相關(guān)能力的接入，也讓吞吐釋放不再只依賴單一路徑，而是開始具備更完整的服務(wù)化擴(kuò)展空間。

這類優(yōu)化的價(jià)值，不只是“某個(gè)后端實(shí)現(xiàn)更快”，而是框架已經(jīng)能夠把長上下文、分階段執(zhí)行和更復(fù)雜的生成路徑組織成穩(wěn)定能力。也正因?yàn)橛辛诉@樣的組織層，后端優(yōu)化才更容易在真實(shí)服務(wù)負(fù)載上持續(xù)兌現(xiàn)。

3、把高頻熱點(diǎn)穩(wěn)定接入主鏈路

在框架路徑逐步穩(wěn)定之后，熱點(diǎn)算子的接入方式就變得更關(guān)鍵，直接影響著整個(gè)推理鏈路的效率上限。RMSNorm、RoPE與 FlashMLA這類模塊都處在高頻主路徑上，一旦這里仍然存在額外的數(shù)據(jù)整理、包裝層開銷或不合適的后端路徑，損失就會被迅速放大到整個(gè)推理過程中。

DeepSeek-V4 Flash在這部分的優(yōu)化重點(diǎn)，是讓框架先基于執(zhí)行階段和輸入形態(tài)識別更合適的后端路徑，再由更貼合場景的實(shí)現(xiàn)承接熱點(diǎn)負(fù)載。這樣做的意義在于，這些模塊不再被當(dāng)成固定的通用算子調(diào)用，而是被納入真實(shí)推理主路徑的整體調(diào)度之中。

階段性測試記錄也印證了這一點(diǎn)。融合后的歸一化與位置編碼路徑曾長期受制于額外的數(shù)據(jù)展開開銷與軟件棧包裝開銷；在張量表達(dá)方式與后端接入路徑調(diào)整之后，這類高頻基礎(chǔ)路徑的額外負(fù)擔(dān)被顯著壓低。類似地，在更貼近長上下文服務(wù)熱點(diǎn)的緩存寫入路徑上，F(xiàn)lashMLA相關(guān)優(yōu)化也持續(xù)體現(xiàn)出更高效的帶寬利用與更穩(wěn)定的主鏈路承接能力。這里減少的并不只是某個(gè)局部模塊的執(zhí)行時(shí)間，更是整條高頻路徑上的額外負(fù)擔(dān)。

4、讓熱點(diǎn)模塊具備按場景切換的能力

MoE路由、激活融合以及attention pre/post處理都屬于高頻熱點(diǎn)，但不同輸入規(guī)模、不同階段、不同數(shù)據(jù)類型下的最優(yōu)路徑并不一致。如果仍然用單一路徑覆蓋全部場景，往往會在某些關(guān)鍵負(fù)載點(diǎn)上失去效率。因此，這一類路徑更重要的目標(biāo)，是讓熱點(diǎn)模塊具備按場景切換的能力。

DeepSeek-V4 Flash在這部分已經(jīng)形成比較清晰的下沉方式。相關(guān)融合路由路徑并不是無條件啟用，而是會根據(jù)輸入形態(tài)、數(shù)據(jù)布局以及不同負(fù)載規(guī)模下的適配條件決定是否進(jìn)入優(yōu)化路徑；SwiGLU quant 也已經(jīng)分化出多種后端實(shí)現(xiàn)；MHC前后處理路徑則圍繞不同并行組織方式、兼容方案以及不同執(zhí)行階段下的并行策略繼續(xù)細(xì)化。這樣的設(shè)計(jì)重點(diǎn)并不在于制造一個(gè)覆蓋全部場景的“超級實(shí)現(xiàn)”，而在于把幾個(gè)真正高頻的熱點(diǎn)模塊拆開下沉，再由框架層根據(jù)輸入規(guī)模、布局和運(yùn)行階段完成組織與選擇。

把這四類案例放在一起看，會更容易理解 DeepSeek-V4 Flash的聯(lián)合優(yōu)化邏輯：框架執(zhí)行路徑負(fù)責(zé)先把運(yùn)行時(shí)穩(wěn)定下來，MTP與長上下文鏈路負(fù)責(zé)補(bǔ)齊更貼近服務(wù)化場景的能力，熱點(diǎn)算子接入負(fù)責(zé)壓低主鏈路固定成本，而MoE相關(guān)模塊則負(fù)責(zé)把不同負(fù)載點(diǎn)上的效率持續(xù)抬高。這四者相輔相成，共同構(gòu)成了全面、深度的優(yōu)化體系。真正起作用的，并不是某一個(gè)局部提速點(diǎn)，而是框架組織、執(zhí)行路徑選擇與熱點(diǎn)模塊優(yōu)化開始相互配合。它們并不是彼此獨(dú)立的局部修補(bǔ)，而是在同一條推理鏈路中逐步收斂出來的協(xié)同結(jié)果。

8K~1M上下文長度驗(yàn)證：PD分離的線性擴(kuò)展能力

除了1k/1k的周度追蹤數(shù)據(jù)，我們也采用 InferenceX 的統(tǒng)一測試方法，對isl=8K~1M, osl=1K 這類更長輸入用例進(jìn)行了階段性驗(yàn)證。結(jié)合PD分離部署形態(tài)，這組觀察更適合放在服務(wù)化運(yùn)行條件下理解，用來說明在更長輸入、更貼近實(shí)際部署的場景中， DeepSeek-V4 Flash的推理鏈路已經(jīng)具備進(jìn)一步展開的基礎(chǔ)。

從目前的表現(xiàn)看，這類 8k/1k 用例至少傳遞出三層信息。第一，PD分離相關(guān)鏈路已經(jīng)不再停留在單點(diǎn)驗(yàn)證階段，而是開始具備更完整的部署成熟度，可以支撐對更長輸入場景的持續(xù)觀察。第二，從單機(jī)到更高并發(fā)的變化方向，與前文 1k/1k 周度趨勢是基本一致的：隨著并發(fā)提升，吞吐能力繼續(xù)放大，說明聯(lián)合優(yōu)化的收益并沒有局限在單一負(fù)載點(diǎn)。第三，在更高并發(fā)條件下，整體擴(kuò)展趨勢已經(jīng)呈現(xiàn)出較好的線性可擴(kuò)展性，這意味著PD分離場景下的執(zhí)行鏈路、調(diào)度組織與后端實(shí)現(xiàn)之間正在形成更穩(wěn)定的協(xié)同基礎(chǔ)。

后續(xù)方向：優(yōu)化路徑如何繼續(xù)演進(jìn)

從現(xiàn)有周度趨勢、階段性benchmark結(jié)果以及框架與算子兩側(cè)的實(shí)現(xiàn)收斂情況來看， DeepSeek-V4 Flash推理性能優(yōu)化的推進(jìn)已經(jīng)形成了幾項(xiàng)比較清晰的判斷：其一，圍繞該模型的優(yōu)化并不是單次跑通后的局部修補(bǔ)，而是在統(tǒng)一測試方法下持續(xù)推進(jìn)的演進(jìn)過程，體現(xiàn)了系統(tǒng)化、工程化的優(yōu)化理念；其二，面向DeepSeek-V4 / MUSA的專用路徑已經(jīng)覆蓋RMSNorm、RoPE、compress、MoE routing、SwiGLU quant、MHC等多個(gè)關(guān)鍵方向形成了全面的優(yōu)化覆蓋；其三，這些收益并不是零散算子替換的簡單疊加，而是框架調(diào)度邏輯與后端實(shí)現(xiàn)逐步協(xié)同后的結(jié)果。

接下來更值得關(guān)注的，不再只是“還能不能繼續(xù)變快”，而是哪些優(yōu)化點(diǎn)最能解釋階段性躍遷、哪些路徑最能穩(wěn)定復(fù)用到更廣的部署場景中。沿著這條鏈路繼續(xù)推進(jìn)時(shí)，尤其值得關(guān)注三個(gè)方向：關(guān)鍵執(zhí)行路徑切換前后的收益是否能夠形成更直接的對照，主要性能躍遷點(diǎn)與具體優(yōu)化項(xiàng)之間能否建立更清晰的對應(yīng)關(guān)系，以及哪些熱點(diǎn)路徑最值得優(yōu)先投入優(yōu)化資源。

這也意味著，圍繞 DeepSeek-V4 Flash形成的優(yōu)化路徑，正在從階段性收益逐步沉淀為可復(fù)用、可延續(xù)的工程能力。

結(jié)語

DeepSeek-V4 Flash在MTT S5000上的持續(xù)優(yōu)化，對應(yīng)著一條從模型適配、性能基線建立到持續(xù)優(yōu)化的完整工程鏈路。吞吐提升與時(shí)延收斂并不是彼此孤立的結(jié)果，而是測試體系、框架路徑與后端算子協(xié)同作用后的自然體現(xiàn)。

當(dāng)持續(xù)驗(yàn)證、路徑選擇與算子實(shí)現(xiàn)開始形成閉環(huán)，推理優(yōu)化也就不再停留在零散的局部改進(jìn)，而會逐步沉淀為穩(wěn)定、可延續(xù)的工程能力，最終賦能更廣闊的AI應(yīng)用場景。

▼ 開發(fā)者可下載鏡像進(jìn)行體驗(yàn)：

registry.mthreads.com/mcconline/inference/sglang:v0.5.6.post2-ph1-4.3.5-torch2.9.0-20260530

相關(guān)文章

行業(yè)動態(tài)

鴻海投資越南太陽能和風(fēng)能項(xiàng)目，為越南工廠和供應(yīng)商供電

消息稱SpaceX將于明年底啟動軌道AI算力測試

朱雀二號改進(jìn)型遙六一箭雙星成功發(fā)射

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬美元收購鴻海精密美國子公司相關(guān)資產(chǎn)

<tr id="da2r2"></tr>

^{<optgroup id="da2r2"></optgroup>}

<optgroup id="da2r2"></optgroup>