滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

AI模型排行榜真相：私下測(cè)試與數(shù)據(jù)不公，排名還能信嗎？

時(shí)間：2025-05-03 11:08:18 來源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

近期，學(xué)術(shù)界對(duì)大型語言模型（LLM）領(lǐng)域內(nèi)的權(quán)威評(píng)價(jià)平臺(tái)——Chatbot Arena排行榜提出了深刻質(zhì)疑，這一話題迅速引起了廣泛關(guān)注。一篇題為《排行榜幻覺》的論文，對(duì)排行榜的可信度進(jìn)行了全面剖析，揭示了其背后存在的多重問題。

論文指出，一些大型科技公司如meta，在正式公布模型前，會(huì)進(jìn)行大量版本的私下測(cè)試。以meta的Llama4為例，該公司在發(fā)布前測(cè)試了多達(dá)27個(gè)版本，最終只公布了表現(xiàn)最優(yōu)的模型。這種“擇優(yōu)發(fā)布”的做法，被批評(píng)為排行榜成績膨脹的推手，同時(shí)也可能誤導(dǎo)公眾對(duì)模型實(shí)際能力的認(rèn)知。

研究還發(fā)現(xiàn)，數(shù)據(jù)訪問的不平等也是影響排行榜公正性的關(guān)鍵因素。專有模型，如Google和OpenAI的產(chǎn)品，能夠獲得遠(yuǎn)超開源模型的用戶反饋數(shù)據(jù)。具體而言，Google和OpenAI分別占據(jù)了測(cè)試數(shù)據(jù)的19.2%和20.4%，而83個(gè)開源模型共同占有的數(shù)據(jù)份額僅為29.7%。這種數(shù)據(jù)資源的不均衡，使得開源模型在排行榜上的表現(xiàn)受到嚴(yán)重制約。

更令人震驚的是，研究團(tuán)隊(duì)還發(fā)現(xiàn)，排行榜上被悄然棄用的模型數(shù)量遠(yuǎn)超官方統(tǒng)計(jì)。在243個(gè)模型中，有205個(gè)模型被棄用，而官方僅記錄了47個(gè)。這一發(fā)現(xiàn)無疑進(jìn)一步加劇了排行榜公正性的爭議。

面對(duì)這些質(zhì)疑，Chatbot Arena排行榜的官方進(jìn)行了回應(yīng)。他們承認(rèn)存在私下測(cè)試的情況，但堅(jiān)稱這并不代表排行榜存在偏見。同時(shí)，官方強(qiáng)調(diào)，排行榜的排名是基于大量用戶的真實(shí)偏好得出的。然而，研究團(tuán)隊(duì)對(duì)此并不認(rèn)同，他們認(rèn)為這種快速刷榜的行為并不能真實(shí)反映模型的技術(shù)進(jìn)步。

為了提升排行榜的公正性和透明度，研究團(tuán)隊(duì)提出了多項(xiàng)改進(jìn)建議。他們建議禁止撤回已提交的分?jǐn)?shù)，限制每個(gè)廠商的非正式模型數(shù)量，并提高模型棄用的透明度。這些建議旨在從制度層面入手，解決排行榜存在的問題。

隨著對(duì)排行榜機(jī)制的深入探討，AI社區(qū)逐漸意識(shí)到，單一排行榜可能無法全面、準(zhǔn)確地反映模型的能力。因此，尋找多個(gè)評(píng)估平臺(tái)成為了越來越重要的趨勢(shì)。在此背景下，卡帕西提出的OpenRouter方案備受矚目。OpenRouter是一個(gè)能夠統(tǒng)一訪問多種模型的接口，盡管目前在多樣性和使用量上還有待提升，但其潛力巨大，被視為解決排行榜問題的一種可能途徑。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

哈弗猛龍燃油版來襲！全新2.0T動(dòng)力，越野性能再升級(jí)

05-15

自研還是采購？電動(dòng)重卡企業(yè)如何權(quán)衡三電系統(tǒng)成本控制

05-15

阿里開源全能視頻編輯模型，蒙娜麗莎橫屏變酷玩墨鏡

單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長延展等多種生成和編輯能力，并支持多任務(wù)組合生成。 Wan2.1-VACE基于通義萬相文生視頻模型研發(fā)，同時(shí)創(chuàng)新性提…

05-15

DC宇宙新紀(jì)元！《超人》電影預(yù)告震撼發(fā)布，北美7月11日燃情上映

05-15

噴油嘴：燃油車動(dòng)力背后的隱形“大師”？

05-15

馬鋼突破！國內(nèi)首款大圓柱深沖電池外殼用鋼成功下線

05-14

好未來高管接連減持，彭壯壯與劉亞超套現(xiàn)均超百萬引關(guān)注

05-14

2025海口投資熱啟！11大優(yōu)質(zhì)項(xiàng)目路演，資本和產(chǎn)業(yè)如何共舞？

05-14

這個(gè)鏈接可能存在安全風(fēng)險(xiǎn)，為了保護(hù)您的設(shè)備和數(shù)據(jù)安全，請(qǐng)避免訪問此鏈接。

05-14

小米AI音箱“高齡”近8歲，功能性更新正式止步

05-14

劉慈欣：愿為AI“奴仆”，探索自然終極奧秘

05-14

《鋼鐵之心》預(yù)告片燃爆！天才少女瑞瑞的終極機(jī)甲探索之旅即將啟程

05-14

絕緣體“疊加”出超導(dǎo)新發(fā)現(xiàn)：電子向列性在超導(dǎo)界面上演“先導(dǎo)劇”

05-14

自動(dòng)駕駛礦卡第一股沖刺！李澤湘能否再添一家上市公司？

05-14

小馬智行兩位創(chuàng)始人信心滿滿，自愿延長股份鎖定期至540天

05-14

點(diǎn)擊查看更多 +

全站最新

福特緊急召回27.4萬輛SUV，制動(dòng)隱患引關(guān)注！

哈弗猛龍燃油版來襲！全新2.0T動(dòng)力，越野性能再升級(jí)

小鵬全新純電轎跑曝光，P7i繼任者GT風(fēng)格震撼來襲！

2025年四月非插電混動(dòng)汽車銷量Top5，哪款是你的心頭好？

奇瑞汽車安全之夜：28年堅(jiān)守，全球展現(xiàn)“中國車安全車”硬核實(shí)力！

比亞迪2025年車型大猜想：除了智駕新車，還有哪些重磅“硬貨”待登場(chǎng)？

熱門內(nèi)容

本欄最新

哈弗猛龍燃油版來襲！全新2.0T動(dòng)力，越野性能再升級(jí)

DC宇宙新紀(jì)元！《超人》電影預(yù)告震撼發(fā)布，北美7月11日燃情上映

噴油嘴：燃油車動(dòng)力背后的隱形“大師”？

馬鋼突破！國內(nèi)首款大圓柱深沖電池外殼用鋼成功下線

好未來高管接連減持，彭壯壯與劉亞超套現(xiàn)均超百萬引關(guān)注

2025海口投資熱啟！11大優(yōu)質(zhì)項(xiàng)目路演，資本和產(chǎn)業(yè)如何共舞？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

AI模型排行榜真相：私下測(cè)試與數(shù)據(jù)不公，排名還能信嗎？

日本精品一区二区三区高清久久