一道看似簡單的數學題——比較9.9和9.11的大小,竟成為檢驗人工智能模型能力的試金石。近日,阿里巴巴最新公測的千問APP在回答這一問題時出現失誤,引發行業對AI技術局限性的討論。該事件不僅暴露了當前大模型在基礎運算中的潛在漏洞,更折射出AI從實驗室走向實際應用面臨的挑戰。
測試過程中,千問APP首次回答稱"9.11更大",隨后在問題拆解階段又正確指出"9.9的十分位是9,9.11的十分位是1,因此9.9更大"。面對這種自相矛盾的回應,AI模型解釋稱首次結論屬于"階段性錯誤",并歸因于"數字長度錯覺"——三位數的9.11在視覺上可能引發認知偏差。經過自我溯源后,該模型在第三次提問中給出了正確答案。
這道經典算術題最早由艾倫研究機構成員林禹臣發現。他在測試ChatGPT-4o時發現,該模型竟認為13.11大于13.8。隨后Scale AI工程師萊利·古德賽德變換問法,向多個主流模型發起挑戰,結果包括ChatGPT-4o、谷歌Gemini Advanced等在內的多個大模型集體"翻車"。這一現象在AI技術圈引發廣泛關注,相關測試截圖在社交平臺獲得數百萬瀏覽量。
行業專家指出,大模型本質上是基于語言數據訓練的統計模型,其核心能力在于捕捉語言模式而非理解數學規則。這種技術路徑導致AI在處理需要嚴格邏輯推理的任務時表現不穩定。某AI技術從業者表示:"語言模型擅長處理模糊的自然語言,但面對精確的數學運算時,其統計學習機制反而成為短板。"
盡管存在基礎運算缺陷,中國大模型在全球市場的競爭力不容小覷。以阿里巴巴Qwen系列為例,該模型累計下載量已突破6億次,在技術積累和生態布局方面形成獨特優勢。愛彼迎CEO布萊恩·切斯基公開表示,公司已將Qwen模型深度整合到運營體系,稱贊其"速度快、成本低"。這種實際應用場景的驗證,為中國AI模型提供了差異化競爭路徑。
阿里巴巴日前宣布全面進軍消費級AI市場,計劃將千問APP與地圖、外賣、票務等20余個生活場景深度融合。基于開源模型Qwen3打造的"千問"項目,被管理層定位為"AI時代的戰略級入口"。通過整合海外影響力,阿里巴巴正與OpenAI等國際巨頭展開直接競爭。這種"技術輸出+場景落地"的雙輪驅動模式,或將重塑全球AI產業格局。
值得關注的是,千問APP的此次失誤恰逢其全球推廣關鍵期。測試結果顯示,該模型在復雜場景理解、多模態交互等方面表現突出,但在基礎運算等"簡單任務"上仍需優化。這種"高階能力突出、基礎能力薄弱"的反差現象,為AI技術發展路徑提供了新的研究樣本。如何平衡模型復雜度與可靠性,將成為行業下一階段的重要課題。











