阿里巴巴旗下的通義團隊近日宣布了一項重大進展,正式推出了基于千問3大模型的全新向量模型系列——Qwen3-Embedding。這一系列的發布,標志著千問3在文本表征、檢索及排序等核心任務上的又一次飛躍,性能相較于其前代模型有了顯著提升,最高可達40%。
Qwen3-Embedding系列模型,作為千問3的衍生產品,其設計初衷便是為了優化和提升AI在文本處理方面的能力。通過先進的對比訓練、SFT技術以及模型融合策略,通義團隊成功地打造出了這一系列的文本嵌入模型Qwen3-Embedding和文本排序模型Qwen3-Reranker。
向量模型,被譽為AI的“翻譯官”,它們能夠將人類所能理解的非結構化信息,如文本和圖片,轉化為機器更易處理的向量形式。這一轉化過程為AI在信息分類、檢索及排序等方面提供了強有力的支持,極大地提升了AI的語義理解和信息處理能力。Qwen3-Embedding系列模型的推出,正是基于這一理念,旨在進一步提升AI在這些方面的性能。
在權威的多語言向量評估榜單MTEB上,Qwen3-Embedding-8B模型憑借其卓越的性能,成功超越了谷歌的Gemini Embedding、OpenAI的text-embedding-3-large以及微軟的multilingual-e5-large-instruct等頂尖模型,奪得了同類模型的最佳性能SOTA。這一成就不僅彰顯了Qwen3-Embedding系列模型的強大實力,也體現了阿里巴巴在AI技術領域的深厚底蘊。
Qwen3向量模型系列還具備出色的多語言能力。得益于千問3大模型的多語言特性,Qwen3-Embedding系列模型支持超過100種語言,并涵蓋了多種編程語言。這一特性使得Qwen3向量模型系列在跨語言檢索、代碼檢索等方面展現出了強大的能力。
為了方便開發者更好地利用Qwen3向量模型系列,阿里巴巴此次開源了9款不同尺寸和版本的模型,包括0.6B、4B、8B等。開發者可以根據自己的需求選擇合適的模型,自由組合模塊,并自定義向量或指令,以實現特定任務、語言和場景的深度優化。例如,在智能搜索和推薦系統中,開發者可以采用Qwen3-Embedding模型進行文本向量化;在RAG實踐中,可以利用Qwen3-Reranker模型提升最終結果的相關性和準確性;甚至還可以與視覺理解模型結合,探索前沿的跨模態語義理解。
目前,Qwen3 Embedding和Reranker模型已經在魔搭社區、Hugging Face和GitHub等平臺上開源,開發者可以直接通過阿里云百煉使用API服務。這一舉措無疑將為AI技術的普及和發展提供有力的支持。
自4月29日千問3大模型開源以來,它已經在國內外的多個權威榜單上取得了優異的成績,包括Artificial Analysis、LiveBench、LiveCodeBench和SuperClue等。這些成績的取得,不僅證明了千問3大模型的強大實力,也展示了阿里巴巴在AI技術領域的持續創新和突破。