剛剛,Qwen3迎來驚喜升級![慶祝][慶祝][慶祝]
通義千問更新了旗艦版Qwen3模型,推出Qwen3-235B-A22B-FP8非思考模式(Non-thinking)的更新版本,命名為:
Qwen3-235B-A22B-Instruct-2507-FP8。
新的Qwen3模型,通用能力顯著提升,包括指令遵循、邏輯推理、文本理解、數(shù)學(xué)、科學(xué)、編程及工具使用等方面。
在GQPA(知識)、AIME25(數(shù)學(xué))、LiveCodeBench(編程)、Arena-Hard(人類偏好對齊)、BFCL(Agent能力)等眾多測評中表現(xiàn)出色,超過Kimi-K2、DeepSeek-V3等頂級開源模型以及Claude-Opus4-Non-thinking等領(lǐng)先閉源模型。
剛剛更新的Qwen3模型,還增強(qiáng)了以下關(guān)鍵性能:· 在多語言的長尾知識覆蓋方面,模型取得顯著進(jìn)步。· 在主觀及開放性任務(wù)中,模型顯著增強(qiáng)了對用戶偏好的契合能力,能夠提供更有用的回復(fù),生成更高質(zhì)量的文本。· 長文本提升到256K,上下文理解能力進(jìn)一步增強(qiáng)。
為獲得最佳性能,阿里也貼心地為大家準(zhǔn)備了推薦配置:· 采樣參數(shù):Temperature=0.7、TopP=0.8、TopK=20、MinP=0 · 合適的輸出長度:輸出長度為16,384Token,這對于指令模型來說已經(jīng)足夠· 規(guī)范輸出格式:數(shù)學(xué)問題:在提示詞中加入「請一步一步推理,并將最終答案放入x5cboxed{}中。」多項(xiàng)選擇題:在提示詞中添加以下JSON結(jié)構(gòu)以規(guī)范回復(fù)格式:「請?jiān)赼nswer字段中僅填寫選項(xiàng)字母,例如:"answer": "C"。」
注意:此模型僅支持非思考模式,在輸出中不會生成塊。同時(shí),不再需要指定enable_thinking=False。
目前,Qwen3新模型已在魔搭社區(qū)和Hugging Face上開源:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8