通義千問團隊近期揭曉了其Qwen模型家族的新力作——Qwen3-Embedding系列模型,該系列專為文本表征、檢索與排序等任務精心打造。基于Qwen3基礎模型的深厚底蘊,新系列充分沿襲了其在多語言文本理解上的卓越能力。
在各項基準測試中,Qwen3-Embedding系列模型表現非凡,特別是在文本表征和排序任務上大放異彩。通過MTEB(包括英文版v2、中文版v1、多語言版及代碼版)檢索數據集的測試,該系列中的0.6B參數規模模型在top-100向量召回結果中展現出色。尤為8B參數規模的Embedding模型在多語言榜單上獨占鰲頭,以70.58的高分超越了眾多商業API服務。
Qwen3-Embedding系列提供了三種不同參數規模的模型配置,從0.6B到8B,以滿足多樣化的性能與效率需求。開發者可以根據實際場景靈活組合表征與排序模塊,實現功能的靈活擴展。該系列模型還支持表征維度的自定義和指令適配優化,用戶可以根據具體任務、語言或場景需求,調整表征維度并自定義指令模板,從而優化性能。
在多語言支持方面,Qwen3-Embedding系列同樣表現出色,覆蓋超過100種語言,包括主流自然語言及多種編程語言,具備強大的多語言、跨語言及代碼檢索能力。該系列模型采用雙塔結構和單塔結構設計,分別應用于Embedding模型和Reranker模型,通過LoRA微調技術,最大限度地保留了基礎模型的文本理解能力。
訓練過程中,Qwen3-Embedding系列采用了多階段訓練范式,并針對具體應用場景進行了深度優化。Embedding模型歷經三階段訓練,包括基于超大規模弱監督數據的對比學習預訓練、高質量標注數據的監督訓練以及模型融合策略,實現了泛化能力與任務適配性的良好平衡。而Reranker模型則直接采用高質量標注數據進行監督訓練,以提高訓練效率。
目前,Qwen3-Embedding系列模型已在Hugging Face、ModelScope和GitHub平臺開源,用戶還可以直接使用阿里云百煉平臺提供的最新文本向量模型服務。這一發布標志著通義千問在文本表征與排序領域邁出了重要一步,未來,隨著Qwen基礎模型的持續優化,該團隊將繼續提升訓練效率,并計劃拓展多模態表征體系,構建跨模態語義理解能力。
用戶可以通過以下鏈接獲取Qwen3-Embedding系列模型的相關信息:
ModelScope: https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48
ModelScope: https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
GitHub: https://github.com/QwenLM/Qwen3-Embedding