阿里巴巴近期宣布了一項重大技術(shù)進(jìn)展,正式向公眾開放了通義千問3系列中的全新向量模型——Qwen3-Embedding。這一模型是基于千問3大模型的強(qiáng)大基礎(chǔ),專門針對文本表征、檢索和排序等核心應(yīng)用場景進(jìn)行了深度優(yōu)化。
與之前的版本相比,Qwen3-Embedding在文本檢索、聚類及分類等關(guān)鍵任務(wù)上的性能提升顯著,最高可達(dá)40%以上。在業(yè)界知名的MTEB等專項評測中,Qwen3-Embedding-8B版本更是脫穎而出,超越了谷歌的Gemini Embedding、OpenAI的text-embedding-3-large以及微軟的multilingual-e5-large-instruct等頂尖模型,一舉奪得了同類模型的最佳性能桂冠。
向量模型作為AI領(lǐng)域的“語言轉(zhuǎn)換器”,能夠?qū)⑽谋尽D像等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為機(jī)器易于理解的向量形式,進(jìn)而實(shí)現(xiàn)高效的信息分類、檢索和排序。通義團(tuán)隊依托千問3大模型,通過對比訓(xùn)練、SFT技術(shù)和模型融合等手段,精心打造出了包括Qwen3-Embedding文本嵌入模型和Qwen3-Reranker文本排序模型在內(nèi)的全新向量模型系列。
得益于千問3的多語言能力,Qwen3向量模型系列能夠支持超過100種語言,并且涵蓋了多種編程語言,這使其在多語言、跨語言及代碼檢索方面展現(xiàn)出了強(qiáng)大的實(shí)力。此次開源的Qwen3向量模型共有9款,涵蓋了0.6B、4B、8B等不同規(guī)模以及GGUF版本,為開發(fā)者提供了豐富的選擇。
開發(fā)者可以根據(jù)自己的實(shí)際需求,自由選擇并組合這些模型模塊,甚至還可以自定義向量或指令,以實(shí)現(xiàn)針對特定任務(wù)、語言和場景的深度優(yōu)化。目前,Qwen3 Embedding和Reranker模型已經(jīng)成功上架魔搭社區(qū)、Hugging Face和GitHub等平臺,開發(fā)者還可以通過阿里云百煉直接使用API服務(wù)。
自4月29日千問3大模型開源以來,其已經(jīng)在Artificial Analysis、LiveBench、LiveCodeBench、SuperClue等多個全球評測榜單中奪得了開源冠軍的榮譽(yù),展現(xiàn)了其卓越的性能和廣泛的應(yīng)用潛力。