阿里巴巴在人工智能領域再次邁出重要一步,正式向公眾開放了全新的千問3向量模型系列——Qwen3-Embedding。這一開源舉措基于千問3的強大底座,專為文本表征、檢索及排序等應用場景進行了深度優化,彰顯了阿里巴巴在AI技術研發上的強勁實力。
Qwen3-Embedding相較于其前身,在文本檢索、聚類及分類等核心功能上實現了顯著提升,性能提高超過40%。這一顯著進步不僅鞏固了其在技術領域的領先地位,更在MTEB等專業評測中超越了包括谷歌Gemini Embedding、OpenAI的text-embedding-3-large以及微軟multilingual-e5-large-instruct在內的眾多頂尖模型,榮獲同類模型中的最佳表現(SOTA)。
向量模型作為AI的“語言轉換器”,通過將文本、圖片等非結構化數據轉換為機器易于理解的向量形式,極大地提升了信息分類、檢索及排序的效率。阿里巴巴的通義團隊利用對比訓練、SFT以及模型融合等先進技術,成功研發出這一新型向量模型,其中不僅包含文本嵌入模型Qwen3-Embedding,還涵蓋了文本排序模型Qwen3-Reranker。
千問3向量模型的一大亮點是其強大的多語言能力,支持超過100種語言,包括多種編程語言,展現出卓越的多語言、跨語言及代碼檢索能力。這一特性為全球開發者提供了更為豐富的應用場景和更廣闊的開發空間。
此次開源的千問3向量模型系列共有9款,涵蓋不同尺寸(如0.6B、4B、8B等)及GGUF版本,開發者可以根據實際需求選擇合適的模型,并自由組合模塊。開發者還可以自定義向量或指令,以實現對特定任務、語言和場景的深度優化。這一高度的靈活性將極大地提升開發效率。
目前,Qwen3-Embedding和Qwen3-Reranker模型已在魔搭社區、Hugging Face及GitHub等多個平臺上開放源代碼,開發者還可以通過阿里云的百煉平臺直接使用API服務。自4月29日開源以來,千問3大模型已在多個國際評測中取得開源冠軍的優異成績。