一道看似簡單的數(shù)學(xué)題——比較9.9與9.11的大小,竟成為考驗人工智能模型能力的試金石。近日,阿里巴巴最新公測的千問APP在回答該問題時出現(xiàn)失誤,引發(fā)業(yè)界對AI模型基礎(chǔ)運算能力的關(guān)注。測試中,千問首次回答稱"9.11更大",隨后在問題拆解階段又正確指出"9.9大于9.11",最終通過自我糾錯機(jī)制修正了答案。
據(jù)技術(shù)團(tuán)隊分析,此次錯誤源于雙重因素:一方面,模型在推理過程中雖正確拆解了小數(shù)比較規(guī)則(9.9的十分位為9,9.11的十分位為1),但最終結(jié)論出現(xiàn)筆誤;另一方面,"9.11"的三位數(shù)形式引發(fā)了數(shù)字長度錯覺,導(dǎo)致潛意識干擾。這種認(rèn)知偏差在語言模型處理數(shù)值問題時尤為常見,因其本質(zhì)是通過統(tǒng)計相關(guān)性而非嚴(yán)格邏輯推理進(jìn)行判斷。
該問題最早由艾倫研究機(jī)構(gòu)成員林禹臣發(fā)現(xiàn)。他曾在社交平臺曝光ChatGPT-4o將13.11誤判為大于13.8的案例。隨后,Scale AI工程師萊利·古德賽德設(shè)計變體問題"9.9與9.11誰更大",導(dǎo)致包括ChatGPT-4o、谷歌Gemini Advanced在內(nèi)的多個主流模型集體"翻車"。這一測試迅速成為衡量AI基礎(chǔ)能力的標(biāo)志性案例。
盡管在常識性運算上存在短板,中國AI模型在全球化競爭中已展現(xiàn)強(qiáng)勁實力。以阿里巴巴Qwen系列為例,其全球下載量突破6億次,在技術(shù)積累與生態(tài)布局方面形成獨特優(yōu)勢。愛彼迎CEO布萊恩·切斯基公開表示,公司已大規(guī)模采用Qwen模型替代部分OpenAI服務(wù),因其"速度更快、成本更低"。這種選擇折射出商業(yè)場景對模型實用性的考量正在超越單純的技術(shù)參數(shù)競爭。
阿里巴巴日前正式宣布全面進(jìn)軍AI消費級市場,將地圖導(dǎo)航、外賣訂餐、票務(wù)預(yù)訂等20余個生活服務(wù)場景接入千問APP。該平臺基于開源模型Qwen3構(gòu)建,被管理層視為"AI時代的關(guān)鍵戰(zhàn)役"。此舉不僅意味著中國科技企業(yè)正借助開源生態(tài)擴(kuò)大國際影響力,更標(biāo)志著AI競爭從技術(shù)層面向應(yīng)用層面全面升級。值得關(guān)注的是,千問項目在修正基礎(chǔ)運算錯誤的同時,正通過多模態(tài)交互與場景化訓(xùn)練持續(xù)提升模型泛化能力。











