2025年9月29日,DeepSeek-V3.2-Exp發布并開源,引入稀疏Attention架構。昇騰已快速基于vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp 0day支持,并面向開發者開源所有推理代碼和算子實現。
昇騰0Day適配和參考實踐
昇騰在DeepSeek-V3.2-Exp一發布開源即實現了DeepSeek-V3.2-Exp BF16模型部署,并在CANN平臺上完成對應的優化適配,整體部署策略沿用DeepSeek的大EP并行方案,針對稀疏DSA結構,疊加實現長序列親和的CP并行策略,兼顧時延和吞吐,在128K長序列下能夠保持TTFT低于2秒、TPOT低于30毫秒的推理生成速度。
NPU DeepSeek-V3.2-Exp推理優化實踐:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_inference_guide.md
昇騰針對DeepSeek-V3.2-Exp架構中兩個全新的算子:Lightning Indexer (LI) 以及Sparse Flash Attention (SFA),針對性地進行算子Tiling設計、Cube核與 Vector核間的流水優化、計算流程的實現優化等,模型和融合Kernel均已開源。
NPU DeepSeek-V3.2-Exp Ascend C融合算子優化:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_ascendc_operator_guide.md
為進一步提高昇騰融合算子的編程易用性,昇騰CANN首次推出大融合算子的編程體系PyPTO,旨在簡化算子開發流程,同時保持高性能計算能力。該框架創新性地采用PTO(Parallel Tensor/Tile Operation)編程范式,以Tensor為基本數據表達方式,構建計算圖,實現高效計算與優化。目前在昇騰上已經基于PyPTO完成DeepSeek-V3.2-Exp模型中DeepSeek Indexer Attention和Lightning indexer算子的開發實踐,僅需幾百行代碼即可完成動態Shape算子編程和算子整網運行。
基于PyPTO的Lightning Indexer和DeepSeek Indexer Attention算子開發實踐:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_pypto_operator_guide.md
在昇騰上基于vLLM、SGLang推理框架部署和TileLang算子編程實踐
昇騰不僅提供了DeepSeek-V3.2-Exp的官方參考實踐,也同步支持vLLM和SGLang等業界主流大模型推理框架部署,提供完整功能,能夠讓廣泛的開發者在社區直接下載相關代碼體驗DeepSeek-V3.2-Exp模型,可以在昇騰實現融合算子、稀疏訪存、多核并行計算等深度優化能力,并持續優化DeepSeek-V3.2-Exp在主流社區的推理性能。
大模型推理框架vLLM及昇騰實現:
https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md
大模型推理框架SGLang及昇騰實現:
https://github.com/sgl-project/sglang/issues/11060
TileLang是由Tile-AI社區發起的Tile-level的類Python的AI編程語言(DSL)項目,在Tile粒度上進行編程和編譯,實現模型算子和硬件的高效協同。昇騰已經實現TileLang的Sparse Flash Attention和Lightning Indexer算子開發,后續將支持更完備的NPU算子并提升性能和泛化性。
NPU DeepSeek-V3.2-Exp TileLang算子開發實踐:
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_tilelang_operator_guide.md
TileLang-Ascend開源社區:
https://github.com/tile-ai/tilelang-ascend
昇騰憑借敏捷協同優化能力,0Day高效完成DeepSeek-V3.2-Exp適配,不僅深度開放自研編程語言AscendC及PyTorch算子源碼,也積極擁抱開源生態,同步實現vLLM、SGLang等主流框架的快速支持,并攜手開源社區Tile-AI共同開源NPU編程項目TileLang-Ascend。我們誠摯期待全球開發者加入昇騰社區,基于昇騰軟硬件平臺進行研究和創新,在Agent AI、內容理解等長文本新應用場景帶來更好的用戶體驗,攜手推進AI產業邁向新高度。











