一場(chǎng)關(guān)于小數(shù)比較的簡(jiǎn)單數(shù)學(xué)題,意外成為檢驗(yàn)人工智能大模型能力的試金石。當(dāng)被問(wèn)及“9.9和9.11哪個(gè)更大”時(shí),多個(gè)知名AI模型接連出現(xiàn)判斷失誤,引發(fā)行業(yè)對(duì)技術(shù)局限性的深入討論。這場(chǎng)測(cè)試最初由艾倫研究機(jī)構(gòu)成員林禹臣在社交平臺(tái)曝光,他發(fā)現(xiàn)ChatGPT-4o將13.11判定為大于13.8,隨后Scale AI工程師通過(guò)變換問(wèn)法,對(duì)多個(gè)主流模型展開(kāi)測(cè)試,結(jié)果顯示多數(shù)模型均未能正確回答“9.9與9.11的大小關(guān)系”。
第一財(cái)經(jīng)近期針對(duì)阿里巴巴最新公測(cè)的千問(wèn)APP展開(kāi)測(cè)試,發(fā)現(xiàn)該模型在首次回答中同樣出現(xiàn)錯(cuò)誤。面對(duì)“數(shù)字9.9和9.11誰(shuí)大”的提問(wèn),千問(wèn)APP初始回答稱“9.11更大”,但在后續(xù)問(wèn)題拆解中,模型承認(rèn)存在思維陷阱,并經(jīng)過(guò)分析修正為“9.9大于9.11”。當(dāng)被追問(wèn)前后答案矛盾時(shí),千問(wèn)解釋稱首次回答存在“階段性錯(cuò)誤”,結(jié)論與推理過(guò)程不匹配,同時(shí)承認(rèn)“9.11”的三位數(shù)形式可能引發(fā)數(shù)字長(zhǎng)度錯(cuò)覺(jué),導(dǎo)致認(rèn)知偏差。經(jīng)過(guò)自我溯源與糾錯(cuò),千問(wèn)在第三次提問(wèn)中給出了正確答案。
這一現(xiàn)象折射出大模型在基礎(chǔ)能力上的潛在短板。有技術(shù)從業(yè)者指出,當(dāng)前主流模型本質(zhì)仍是語(yǔ)言模型,其訓(xùn)練方式依賴語(yǔ)言數(shù)據(jù)的統(tǒng)計(jì)相關(guān)性,而非嚴(yán)格的規(guī)則學(xué)習(xí)。這種特性使模型在處理需要?dú)w納推理的常識(shí)性問(wèn)題時(shí)表現(xiàn)不穩(wěn)定,即便能解決復(fù)雜數(shù)學(xué)競(jìng)賽題,仍可能在簡(jiǎn)單邏輯判斷上“翻車”。例如,谷歌Gemini Advanced和Claude 3.5 Sonnet等頭部模型,此前也曾在此類測(cè)試中集體失誤。
盡管存在局限性,中國(guó)大模型在全球市場(chǎng)的競(jìng)爭(zhēng)力正逐步顯現(xiàn)。以阿里巴巴Qwen系列為例,其全球下載量已突破6億次,并在技術(shù)生態(tài)與商業(yè)應(yīng)用層面取得突破。愛(ài)彼迎CEO布萊恩·切斯基公開(kāi)表示,公司已廣泛采用Qwen模型,因其“速度快、成本低”,而OpenAI的最新模型在實(shí)際生產(chǎn)中因經(jīng)濟(jì)性不足未被大規(guī)模使用。這種技術(shù)優(yōu)勢(shì)正推動(dòng)中國(guó)模型加速出海,與國(guó)際巨頭展開(kāi)直接競(jìng)爭(zhēng)。
阿里巴巴近日宣布全面推進(jìn)“千問(wèn)”項(xiàng)目,正式進(jìn)軍消費(fèi)級(jí)AI市場(chǎng)。基于開(kāi)源模型Qwen3,千問(wèn)APP計(jì)劃整合地圖、外賣、訂票、辦公、學(xué)習(xí)等生活場(chǎng)景,構(gòu)建一站式智能服務(wù)平臺(tái)。公司管理層將此視為“AI時(shí)代的關(guān)鍵戰(zhàn)役”,試圖借助Qwen的海外影響力,在通用人工智能領(lǐng)域開(kāi)辟新賽道。這一布局不僅體現(xiàn)技術(shù)自信,更標(biāo)志著中國(guó)AI企業(yè)正從應(yīng)用創(chuàng)新向底層技術(shù)競(jìng)爭(zhēng)升級(jí)。











