滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

新研究：人類讀指針鐘準確率近九成，頂尖AI模型準確率僅一成多

時間：2025-09-14 18:58:52 來源：IT之家編輯：快訊團隊 IP：北京 發(fā)表評論無障礙通道

一項名為“ClockBench”的全新測試揭示，人類在讀取指針式時鐘方面的準確率高達89.1%，而當前最先進的人工智能模型準確率僅為13.3%。這一差距凸顯了AI在視覺推理能力上與人類的顯著差異，尤其是在處理復雜視覺信息時，AI的表現(xiàn)遠未達到預期水平。

該測試由研究者阿萊克·薩法爾設計，旨在通過定制化的指針式時鐘數(shù)據(jù)集，評估AI在視覺推理任務中的表現(xiàn)。測試中，來自6家企業(yè)的11個大型語言模型與5名人類參與者展開對比。數(shù)據(jù)集包含180個獨特的指針式時鐘，涵蓋36種鐘面設計，融合了羅馬數(shù)字與阿拉伯數(shù)字、不同朝向、時針標識、鏡像布局及彩色背景等元素，確保測試的復雜性和多樣性。

每個時鐘需通過四類問題測試：讀取時間、時間計算、按特定角度調整指針及時區(qū)轉換。為保證公平性，數(shù)據(jù)集從零構建，避免與模型訓練數(shù)據(jù)重疊。測試結果顯示，AI模型在讀取時間時的中位誤差達1小時，而人類的中位誤差僅為3分鐘。性能最差的AI模型誤差甚至接近3小時，幾乎與隨機猜測無異。

在參與測試的AI模型中，谷歌旗下的Gemini 2.5 Pro以13.3%的準確率位居榜首，Gemini 2.5 Flash和GPT-5分別以10.5%和8.4%的準確率緊隨其后。然而，Grok 4模型的表現(xiàn)令人意外，其準確率僅0.7%，且將63.3%的時鐘判定為“無效”，遠高于實際無效時鐘的比例（180個中僅37個）。這種過度謹慎的策略雖在技術上增加了正確答案數(shù)量，但并未真正提升模型能力。

測試還發(fā)現(xiàn)，鐘面特征對AI判斷影響顯著。當鐘面采用羅馬數(shù)字時，AI準確率驟降至3.2%；采用圓形數(shù)字時，準確率也僅為4.5%。秒針、彩色背景及鏡像布局均會干擾AI的判斷。相比之下，僅含時針的時鐘（準確率23.6%）和采用阿拉伯數(shù)字的標準時鐘，能讓AI取得相對更好的成績。

一個意外發(fā)現(xiàn)是，AI模型在成功讀取時間后，能正確完成時間計算、指針調整或時區(qū)轉換任務。這表明，AI的挑戰(zhàn)并非在于時間相關的數(shù)學運算，而在于從視覺信息中提取時間的初始步驟。薩法爾分析，原因可能包括：指針式時鐘讀取對視覺推理能力要求極高；罕見或特殊的鐘面設計在訓練數(shù)據(jù)中極少出現(xiàn)；以及將視覺信息轉化為文字描述對當前AI模型而言難度較大。

ClockBench被定位為長期基準測試，其完整數(shù)據(jù)集目前保密，以避免污染未來AI的訓練過程，但已有一個公開版本供測試使用。盡管AI在該測試中得分普遍較低，薩法爾認為，性能最佳的模型已展現(xiàn)出基礎的視覺推理能力，優(yōu)于隨機猜測。然而，這些能力能否通過擴大現(xiàn)有方法規(guī)模提升，還是需要全新技術路徑突破，仍是一個待解的問題。

此前，中國一項研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似短板，但當時GPT-4o模型在包含“讀時鐘、讀儀表”的任務中準確率達54.8%。此次ClockBench測試中，AI最高準確率僅為13.3%，既表明新基準測試難度顯著提升，也反映出AI在時鐘讀取能力上并未取得明顯進步。

09-14

海馬emoji是否存在？ChatGPT等AI深陷“記憶迷局”反復糾錯難自明

09-14

螞蟻開源聯(lián)合Inclusion AI發(fā)布大模型生態(tài)全景圖，呈現(xiàn)AI開源新特征與三大開發(fā)趨勢

09-14

OpenAI稱GPT-5有博士級能力，谷歌DeepMind CEO：尚缺全面博士能力，AGI或需5到10年

09-14

缺錢仍具洞察：陶哲軒直指AI在數(shù)學研究中隱性目標被忽視之困

09-14

谷歌DeepMind CEO：當前AI系統(tǒng)難達博士級，GPT-5綜合能力被指差距大

09-14

OpenAI 2024-2030年擬投巨資：算力租賃與研發(fā)成本高企，盈利前景存疑

09-14

岳麓大會十二年：從“閉門論道”到“鏈上生長”，湖南數(shù)字生態(tài)如何崛起？

09-14

谷歌DeepMind CEO：當前AI系統(tǒng)難達博士級，GPT-5能力被指夸大

09-14

新學期新氣象！北京1400余所中小學全學段開設人工智能通識課

09-14

宇樹王興興福耀科大開講：AI時代機遇均等，新生當懷熱忱逐夢前行

09-14

螞蟻開源2025外灘大會發(fā)布大模型全景圖，AI開發(fā)現(xiàn)三大趨勢：工具、路線與生態(tài)分化

月 13 日，在 2025 Inclusion·外灘大會AI開源見解論壇上，螞蟻開源聯(lián)合Inclusion AI 發(fā)布了全新的《全球大模型開源開發(fā)生態(tài)全景與趨勢告》。本次發(fā)布的大模型開源開發(fā)生態(tài)全景圖共收錄了…

09-14

?對話京東方陳炎順：AI驅動產(chǎn)業(yè)升級，未來三年500億研發(fā)攜手伙伴共拓新局?

“早在2024年初，京東方就將AI提高到了企業(yè)的整體發(fā)展戰(zhàn)略”，陳炎順對作者表示，“一方面我們成立了AI+創(chuàng)新與應用委員會，要求以營業(yè)收入的0.5%來用于AI的研發(fā)。陳炎順指出，從CES到SID等國際展會上…

09-14

OpenAI奧爾特曼坦言：ChatGPT問世后，模型細微調整牽動數(shù)億人思維行為致其難眠

9月14日消息，據(jù)《財富》報道，OpenAI CEO 薩姆·奧爾特曼在接受采訪時表示，“自從 ChatGPT 推出以來，我就沒睡過一個好覺?！?奧爾特曼描述了監(jiān)管這項如今每天有數(shù)億人使用的技術的壓力，他擔憂的…

09-14

上海創(chuàng)智學院：90后導師領航博士CEO逐夢機器人奇境挑戰(zhàn)未來

2023年，劉鵬飛完成美國博后工作回國加盟上海交通大學，去年以雙聘的形式加盟創(chuàng)智學院，他深深感受時代的機遇正在眼前——“三個低概率事件”交匯：智能革命的發(fā)生、創(chuàng)智學院模式的獨一無二，學院對師生資源的傾斜。就…

09-14

點擊查看更多 +

全站最新

鴻蒙智行MPV新車諜照現(xiàn)身智界品牌或迎新成員明年上半年有望上市

岳麓大會十二年：從“閉門論道”到“鏈上生長”，湖南數(shù)字生態(tài)如何崛起？

抖音圖文創(chuàng)作新思路：精選素材+用心運營，輕松開啟自媒體變現(xiàn)路！

方形CMOS加持！iPhone 17前置攝像頭如何打破自拍構圖限制？

?杭州全球農(nóng)創(chuàng)客大賽落幕：AI養(yǎng)豬、超濾凈水，青年科技繪就農(nóng)業(yè)新藍圖?

億級賣家吞吞揭秘：TikTok美區(qū)直播如何選渠道、控成本、定布局？

熱門內容

本欄最新

岳麓大會十二年：從“閉門論道”到“鏈上生長”，湖南數(shù)字生態(tài)如何崛起？

新學期新氣象！北京1400余所中小學全學段開設人工智能通識課

宇樹王興興福耀科大開講：AI時代機遇均等，新生當懷熱忱逐夢前行

螞蟻開源2025外灘大會發(fā)布大模型全景圖，AI開發(fā)現(xiàn)三大趨勢：工具、路線與生態(tài)分化

?對話京東方陳炎順：AI驅動產(chǎn)業(yè)升級，未來三年500億研發(fā)攜手伙伴共拓新局?

OpenAI奧爾特曼坦言：ChatGPT問世后，模型細微調整牽動數(shù)億人思維行為致其難眠

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

新研究：人類讀指針鐘準確率近九成，頂尖AI模型準確率僅一成多

日本精品一区二区三区高清久久

新研究：人類讀指針鐘準確率近九成，頂尖AI模型準確率僅一成多