硅基流動大模型服務平臺近日迎來重要更新——螞蟻集團百靈團隊研發的Ling-flash-2.0正式入駐該平臺,成為其第130個對外開放的模型資源。這款基于混合專家架構(MoE)的語言模型,憑借100億總參數與僅6.1億激活參數的輕量化設計,在保持高效計算的同時實現了40億參數Dense模型的性能水準。
技術團隊通過20TB級高質量語料的預訓練、多階段強化學習及監督微調,使Ling-flash-2.0在復雜推理、代碼生成和前端開發等場景中表現突出。其128K的上下文窗口支持能力,可處理相當于300頁文檔的文本內容,為長文檔分析、多輪對話等場景提供技術保障。在輸出效率方面,該模型通過1/32激活比例的MoE架構優化,配合H20硬件部署,輸出速度突破每秒200Token,較傳統36B Dense模型提升超300%。
價格策略方面,平臺延續親民路線:輸入定價每百萬Token僅需1元,輸出定價4元,并針對新用戶推出差異化贈金方案——國內用戶可獲14元體驗金,國際用戶則享受1美元等值額度。這種定價模式顯著降低了AI技術的使用門檻,尤其適合中小型開發團隊進行技術驗證。
在性能對比測試中,Ling-flash-2.0展現出獨特優勢。相較于同參數量級的Qwen3-32B-Non-Thinking、Seed-OSS-36B-Instruct等Dense模型,以及Hunyuan-A13B-Instruct、GPT-OSS-120B/low等MoE模型,該模型在數學推理、代碼糾錯等任務中準確率提升12%-18%。在創意寫作場景中,其文本連貫性和信息密度指標也優于多數競品。
作為一站式AI開發平臺,硅基流動目前提供涵蓋文本、圖像、音頻、視頻等領域的多元模型服務。開發者可通過統一API接口自由組合不同模型,實現多模態任務的高效協同。平臺內置的模型對比工具支持實時性能評估,幫助開發者快速定位最適合業務場景的技術方案。
技術文檔顯示,Ling-flash-2.0的架構創新體現在多個層面:通過動態路由機制實現專家模塊的高效協作,采用漸進式激活策略平衡計算效率與模型容量,并在注意力機制中引入稀疏化設計。這些優化使模型在保持低延遲的同時,具備處理復雜邏輯任務的能力。
目前,開發者可通過以下渠道體驗Ling-flash-2.0:國內用戶訪問https://cloud.siliconflow.cn/models,國際用戶訪問https://cloud.siliconflow.com/models。平臺提供完整的開發文檔、在線調試工具及技術社區支持,助力開發者快速實現AI應用落地。