滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

AI評(píng)測(cè)新戰(zhàn)場(chǎng)：LMArena崛起，傳統(tǒng)與動(dòng)態(tài)評(píng)測(cè)誰(shuí)能定義智能邊界？

時(shí)間：2025-11-02 05:16:45 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

當(dāng)前，各大科技公司的大模型競(jìng)爭(zhēng)進(jìn)入白熱化階段，OpenAI的GPT、Anthropic的Claude、谷歌的Gemini以及中國(guó)的DeepSeek等模型不斷推陳出新。然而，隨著AI模型排行榜頻繁出現(xiàn)刷分作弊現(xiàn)象，如何客觀評(píng)估大模型性能成為業(yè)界關(guān)注的焦點(diǎn)。在此背景下，一個(gè)名為L(zhǎng)MArena的線上評(píng)測(cè)平臺(tái)應(yīng)運(yùn)而生，通過(guò)實(shí)時(shí)對(duì)戰(zhàn)和用戶投票的方式，為大模型性能評(píng)估提供了新的思路。

在LMArena平臺(tái)上，文字、視覺、搜索、文生圖、文生視頻等多個(gè)細(xì)分領(lǐng)域的AI大模型每天進(jìn)行上千場(chǎng)實(shí)時(shí)對(duì)戰(zhàn)。普通用戶通過(guò)匿名投票的方式，選出自己認(rèn)為表現(xiàn)更好的模型。這種評(píng)測(cè)方式得到了許多AI研究者的認(rèn)可，他們認(rèn)為大模型競(jìng)賽的下半場(chǎng)需要重新思考模型評(píng)估標(biāo)準(zhǔn)。當(dāng)技術(shù)創(chuàng)新趨于飽和時(shí)，準(zhǔn)確衡量和理解模型的智能邊界將成為拉開差距的關(guān)鍵。

傳統(tǒng)的大模型評(píng)估主要依賴固定的題庫(kù)，如MMLU、BIG-Bench、HellaSwag等。這些題庫(kù)涵蓋學(xué)科、語(yǔ)言、常識(shí)推理等多個(gè)維度，通過(guò)比較模型的答對(duì)率或得分來(lái)評(píng)估性能。然而，隨著模型能力的增強(qiáng)和訓(xùn)練數(shù)據(jù)的擴(kuò)大，傳統(tǒng)Benchmark的局限性逐漸顯現(xiàn)。題庫(kù)泄露導(dǎo)致模型可能只是“記住”答案而非真正理解問(wèn)題，且靜態(tài)Benchmark無(wú)法反映模型在真實(shí)交互中的表現(xiàn)。

LMArena的競(jìng)技場(chǎng)模式被視為應(yīng)對(duì)傳統(tǒng)Benchmark失靈的新方案。其核心機(jī)制源于伯克利實(shí)驗(yàn)室的研究，2023年5月由全球頂尖學(xué)府組成的非營(yíng)利性開放研究組織LMSYS推出了Chatbot Arena（LMArena的前身）。當(dāng)時(shí)，LMSYS團(tuán)隊(duì)為了比較自己發(fā)布的開源模型Vicuna和斯坦福大學(xué)推出的Alpaca的性能，嘗試了多種評(píng)測(cè)方法，最終發(fā)現(xiàn)人類比較（Pairwise Comparison）的方式更為可靠。

在Chatbot Arena上，用戶輸入問(wèn)題后，系統(tǒng)會(huì)隨機(jī)分配兩個(gè)模型生成回答，用戶通過(guò)投票選擇更好的回答。投票結(jié)束后，系統(tǒng)基于Bradley–Terry模型實(shí)現(xiàn)Elo式評(píng)分機(jī)制，形成動(dòng)態(tài)排行榜。這種機(jī)制讓評(píng)測(cè)成為一場(chǎng)“真實(shí)世界的動(dòng)態(tài)實(shí)驗(yàn)”，而非一次性的閉卷考試。平臺(tái)通過(guò)“人機(jī)協(xié)同評(píng)估框架”確保評(píng)測(cè)的開放性和可控性，所有數(shù)據(jù)和算法均開源，任何人都可以復(fù)現(xiàn)或分析結(jié)果。

2024年底，LMArena的功能和評(píng)測(cè)任務(wù)擴(kuò)展至代碼生成、搜索評(píng)估、多模態(tài)圖像理解等細(xì)分領(lǐng)域，并更名為L(zhǎng)MArena。谷歌最新文生圖模型Nano Banana最早通過(guò)LMArena以神秘代號(hào)引發(fā)關(guān)注，Gemini 3.0也被發(fā)現(xiàn)在該平臺(tái)上進(jìn)行測(cè)試。如今，幾乎所有頭部模型都在LMArena上“打擂臺(tái)”，將其作為測(cè)試普通用戶反饋的“常規(guī)賽場(chǎng)”。

然而，隨著LMArena的火爆，其公平性也受到質(zhì)疑。用戶的語(yǔ)言背景、文化偏好和使用習(xí)慣可能影響投票結(jié)果，導(dǎo)致模型因“討人喜歡”而非真正智能而獲勝。研究發(fā)現(xiàn)，LMArena的結(jié)果與傳統(tǒng)Benchmark分?jǐn)?shù)之間并非強(qiáng)相關(guān)，存在“話題偏差”與“地區(qū)偏差”。一些公司為“上榜”優(yōu)化模型回答風(fēng)格，甚至提供“專供版”模型，導(dǎo)致評(píng)測(cè)公正性受到爭(zhēng)議。

2025年5月，LMArena背后的團(tuán)隊(duì)注冊(cè)公司“Arena Intelligence Inc.”，并完成1億美元種子輪融資。公司化后，平臺(tái)可能探索數(shù)據(jù)分析、定制化評(píng)測(cè)和企業(yè)級(jí)報(bào)告等商業(yè)服務(wù)。這引發(fā)了業(yè)界對(duì)其中立性的擔(dān)憂，當(dāng)資本介入后，LMArena是否還能保持“開放”與“中立”成為焦點(diǎn)問(wèn)題。

盡管LMArena暴露出新矛盾，但傳統(tǒng)Benchmark仍在持續(xù)演化。近年來(lái)，研究者推出了難度更高的版本，如MMLU Pro、BIG-Bench-Hard，以及聚焦細(xì)分領(lǐng)域的Benchmark，如AIME 2025、SWE-Bench、AgentBench等。這些新Benchmark模擬模型在真實(shí)世界中的工作方式，從單一考試題集演化為多層次體系。

與此同時(shí)，評(píng)測(cè)進(jìn)一步走向“真實(shí)世界”。例如，Alpha Arena平臺(tái)讓六大模型在加密貨幣交易市場(chǎng)中進(jìn)行對(duì)戰(zhàn)，以實(shí)際收益和策略穩(wěn)定性作為評(píng)測(cè)依據(jù)。雖然這種“實(shí)戰(zhàn)式評(píng)測(cè)”更多是“噱頭”，但為大模型在動(dòng)態(tài)、對(duì)抗環(huán)境中的檢驗(yàn)提供了新思路。

未來(lái)的模型評(píng)估可能是一種融合式框架，靜態(tài)Benchmark提供可復(fù)現(xiàn)、可量化的標(biāo)準(zhǔn)，Arena提供動(dòng)態(tài)、開放、面向真實(shí)交互的驗(yàn)證。隨著大模型能力提升，原有測(cè)試集“太簡(jiǎn)單”的問(wèn)題愈發(fā)突出，Arena的自動(dòng)難度過(guò)濾提出了階段性解決方案，但真正的方向是由人類專家與強(qiáng)化學(xué)習(xí)環(huán)境共同推動(dòng)的高難度數(shù)據(jù)建設(shè)。

朱邦華認(rèn)為，大模型評(píng)估的未來(lái)是螺旋式共演。模型的突破迫使評(píng)測(cè)體系升級(jí)，新的評(píng)測(cè)又反過(guò)來(lái)定義模型的能力邊界。高質(zhì)量的數(shù)據(jù)成為連接兩者的中軸，研究者需要篩選、組合與聚合成百上千個(gè)數(shù)據(jù)集，建立兼顧統(tǒng)計(jì)有效性與人類偏好的聚合框架。這將是一場(chǎng)持續(xù)進(jìn)行的實(shí)驗(yàn)，最終構(gòu)建一個(gè)動(dòng)態(tài)、開放、可信的智能測(cè)量體系。

11-15

中國(guó)通號(hào)自主研發(fā)系統(tǒng)助力青藏鐵路構(gòu)建無(wú)人機(jī)立體防護(hù)網(wǎng)

11-15

十二載輪回落幕，生肖酒新篇開啟：文化與市場(chǎng)博弈下的新征程

11-15

嵐圖泰山18日上市，45萬(wàn)起售，大六座SUV市場(chǎng)或迎新格局

11-15

存儲(chǔ)芯片價(jià)格瘋漲，手機(jī)廠商采購(gòu)暫緩，中高端機(jī)型或迎漲價(jià)潮

11-15

阿里通義App煥新升級(jí)更名為千問(wèn) 5.0.0攜三大核心能力對(duì)標(biāo)ChatGPT

11-15

中國(guó)AI務(wù)實(shí)突圍：從DeepSeek到MiniMax，誰(shuí)將打破OpenAI神話？

而在此前提下，再疊加算力可控和訓(xùn)練成本低等優(yōu)勢(shì)，以MiniMax為代表的中國(guó)AI模型便正好踩中了一個(gè)非常罕見的時(shí)間窗口——在OpenAI忙著追逐AGI和構(gòu)建未來(lái)超級(jí)系統(tǒng)的時(shí)間縫隙中，國(guó)內(nèi)AI正好可以在短期的…

11-15

“天衍-287”超導(dǎo)量子計(jì)算機(jī)問(wèn)世，處理特定問(wèn)題速度遠(yuǎn)超超級(jí)計(jì)算機(jī)

11月14日，中國(guó)電信量子研究院發(fā)布消息，搭載“祖沖之三號(hào)”同款芯片的超導(dǎo)量子計(jì)算機(jī)“天衍-287”完成搭建。據(jù)介紹，其擁有105個(gè)數(shù)據(jù)比特和182個(gè)耦合比特，由中電信量子集團(tuán)與科大國(guó)盾量子技術(shù)股份有限公司聯(lián)…

11-15

AI浪潮涌動(dòng)烏鎮(zhèn)！相芯科技攜全鏈條數(shù)字人成果亮相世界互聯(lián)網(wǎng)大會(huì)

11-15

阿里巴巴“通義”升級(jí)更名“千問(wèn)”，消費(fèi)級(jí)AI戰(zhàn)場(chǎng)再添強(qiáng)勁競(jìng)爭(zhēng)者

根據(jù)官方消息，“千問(wèn)”定位為阿里旗下最重要的大模型應(yīng)用入口，其核心能力基于阿里自研的大模型體系Qwen（千問(wèn)）。分析人士指出，阿里此前在To B市場(chǎng)和模型研發(fā)側(cè)擁有技術(shù)基礎(chǔ)，但在消費(fèi)端應(yīng)用分發(fā)層面還未形成…

11-15

阿里巴巴“通義”App升級(jí)更名“千問(wèn)”，AI戰(zhàn)略轉(zhuǎn)向消費(fèi)級(jí)市場(chǎng)新布局

根據(jù)官方消息，“千問(wèn)”定位為阿里旗下最重要的大模型應(yīng)用入口，其核心能力基于阿里自研的大模型體系Qwen（千問(wèn)）。分析人士指出，阿里此前在To B市場(chǎng)和模型研發(fā)側(cè)擁有技術(shù)基礎(chǔ)，但在消費(fèi)端應(yīng)用分發(fā)層面還未形成…

11-15

圖靈測(cè)試已落伍？奧特曼攜手量子計(jì)算之父提出新標(biāo)準(zhǔn)衡量AI智能

【新智元導(dǎo)讀】隨著現(xiàn)在的主流大模型都能輕松通過(guò)圖靈測(cè)試，這個(gè)持續(xù)了數(shù)十年的標(biāo)準(zhǔn)開始逐漸過(guò)時(shí)。奧特曼和量子計(jì)算之父David Deutsch討論得出了一個(gè)新的圖靈測(cè)試2.0標(biāo)準(zhǔn)，可以更好地衡量究竟怎樣AI才…

11-15

AI賦能時(shí)代：普通人如何借力AI工具，實(shí)現(xiàn)個(gè)人能力的躍遷與進(jìn)化？

11-15

UCLA等團(tuán)隊(duì)研發(fā)ARES框架：讓AI學(xué)會(huì)“量體裁衣”式智能推理

11-15

Salesforce革新AI訓(xùn)練：Webscale-RL破解數(shù)據(jù)困局，效率躍升百倍

11-15

點(diǎn)擊查看更多 +

全站最新

科大訊飛AI學(xué)習(xí)機(jī)S30深度評(píng)測(cè)：個(gè)性化學(xué)習(xí)護(hù)眼雙保障，助力孩子高效成長(zhǎng)

鼎美匯成長(zhǎng)之路：競(jìng)爭(zhēng)爭(zhēng)議相伴，堅(jiān)守初心方能鑄就品牌傳奇

堅(jiān)守長(zhǎng)期主義！哈弗大狗憑卓越耐蝕性能成經(jīng)濟(jì)型車組別唯一獲獎(jiǎng)車型

比亞迪高端化新突破！騰勢(shì)N8L憑實(shí)力“破圈”，營(yíng)銷助力熱度持續(xù)

新能源車零百加速或設(shè)限？別急，默認(rèn)5秒外仍可手動(dòng)切換高性能

雷軍再談小米汽車安全理念：以扎實(shí)用料與高效吸能筑牢行車安全防線

熱門內(nèi)容

本欄最新

東風(fēng)奕派eπ007+深圳煥新登場(chǎng)：14萬(wàn)級(jí)激光雷達(dá)加持，四驅(qū)轎跑新選擇

24.9萬(wàn)起售！全新奔馳純電CLA攜四大突破，重塑豪華純電新標(biāo)桿

東風(fēng)奕派兩周年獻(xiàn)禮，eπ007+攜四大優(yōu)勢(shì)登場(chǎng)，助力新能源賽道加速跑

東風(fēng)奕派兩周年獻(xiàn)禮：eπ007+攜四大優(yōu)勢(shì)登場(chǎng)，為年輕人出行注入新動(dòng)力

東風(fēng)奕派eπ007+高能登場(chǎng)，以“奕派速度”為年輕人解鎖百萬(wàn)級(jí)出行新體驗(yàn)

嵐圖泰山來(lái)襲：外觀大氣內(nèi)飾豪華能否在高端SUV市場(chǎng)分一杯羹？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

AI評(píng)測(cè)新戰(zhàn)場(chǎng)：LMArena崛起，傳統(tǒng)與動(dòng)態(tài)評(píng)測(cè)誰(shuí)能定義智能邊界？

日本精品一区二区三区高清久久