在“鯤鵬昇騰開發者大會2025”盛會上,華為昇騰計算業務總裁張迪煊發表了激情洋溢的演講,圍繞“攜手昇騰,共創輝煌”的主題,深入闡述了昇騰AI的技術藍圖與生態構建策略。他強調,昇騰異構計算架構CANN(神經網絡計算架構)作為昇騰AI的核心驅動力,始終秉持“賦能每一位創新者”的初心,通過深度開放策略和技術創新,不斷挖掘硬件潛能,推動AI開發效率與性能的雙重飛躍。
張迪煊指出,自2023年CANN宣布深度開放以來,已吸引了超過6000名認證開發者加入創新社區,共同推動AI生態的繁榮發展。這一過程中,CANN不僅與互聯網、運營商、金融等領域的30多個合作伙伴攜手,創新開發了260多個高性能算子,顯著提升了業務場景的性能表現,還通過多維協同創新,構建了開發者友好型的AI生態。
在技術層面,CANN取得了豐碩的成果。在操作系統層面,CANN打造了多樣化OS,兼容鴻蒙、歐拉等主流操作系統,為開發運行提供了堅實的基石。同時,CANN還開源了算子加速庫、通信算法、Ascend C等組件,并在Gitee社區上線了260多個算子和10多個通信算法參考樣例,極大地提升了開發效率。在整圖優化方面,CANN提供了內存復用、自動調度等加速技術,進一步加快了模型計算速度。
為了進一步提升AI開發效率,CANN采用了“基礎層開放+應用層共創”的雙輪驅動模式。這一模式不僅重塑了AI算力效能的邊界,還推動了AI產業鏈的協同進化,形成了從技術突破到商業轉化的生態閉環。在此基礎上,CANN通過分層開放架構,實現了技術普惠化躍遷,構建起覆蓋算子開發、系統調優到編譯鏈優化的全場景賦能體系。
為了降低開發門檻,CANN發布了CATLASS算子模板庫,提供了從Device層調用接口到Kernel層完整實現及Block/Tile/Basic層拆解源碼的分層支持,使得Matmul開發周期縮短了50%。同時,CANN還開源了Ascend C 2.0,并提供了豐富的開發接口,結合算子加速庫(AOL)與集合通信庫(HCCL),以及Gitee社區的參考樣例,助力開發者快速完成算子開發與調優。
在底層原子能力開放方面,CANN開放了190多個runtime運行時接口,提供了底層原子級能力,支持靈活組合,允許開發者直接調用NPU硬件的原子級能力,實現整圖調度優化與硬件性能極限挖掘。畢昇編譯器的推出,更是以“全鏈路優化+生態兼容”為核心,打造了開發者友好型工具鏈。畢昇編譯器在編譯優化層面,支持異構混合編程,實現了算子性能20%以上的提升,并能在分鐘級內定位內存問題。在生態開放層面,畢昇編譯器開放了AscendNPU IR接口,實現了開發者“無感遷移”的開發體驗,并通過開源社區持續輸出技術能力,推動了昇騰與全球AI開發生態的深度融合。
在計算加速、通信加速、內存優化三大領域,CANN也取得了顯著的突破。在計算優化方面,通過MLAPO融合算子技術,CANN將MoE模型中的多個串行小算子整合為超級大算子,結合Vector與Cube計算單元的并行處理,使得計算耗時大幅降低,性能提升超過142%。在通信效率方面,NPUDirect通信算法革新了傳統RDMA異步通信模式,實現了“單消息一次同步”機制,使得小包通信耗時降低90%,整網通信時延減少50%。在內存管理方面,CANN創新了多重地址映射技術,有效提升了內存利用率,破解了動態shape場景下的碎片難題。
這些技術的協同突破,構建了昇騰CANN“計算高效、通信敏捷、內存精細”的底層技術體系,為AI模型訓推全流程提供了極致算力支撐。張迪煊表示,從分層開放的生態裂變到計算、內存、通信的原子級突破,昇騰CANN正以“技術縱深的突破與生態廣度的延展”雙輪驅動,重塑AI產業的創新范式。這不僅是一場硬件算力的革命,更是一場開發者與技術的共進化。昇騰CANN作為中國AI創新的技術底座,正攜手全球開發者,共同探索AI技術的無限可能,以開放之姿,與時代共昇騰;以極致之力,與未來共綻放。