人工智能領(lǐng)域近期掀起了一場(chǎng)關(guān)于公共基準(zhǔn)測(cè)試平臺(tái)公正性的熱議。LMArena,這一備受矚目的平臺(tái),近期被指存在對(duì)大型供應(yīng)商如OpenAI、谷歌及meta的潛在偏袒,引發(fā)了行業(yè)內(nèi)的廣泛關(guān)注和爭(zhēng)議。
LMArena平臺(tái)通過(guò)展示不同大型語(yǔ)言模型(LLM)的回復(fù)對(duì)比,并由用戶投票選出更優(yōu)者,形成了一個(gè)在行業(yè)內(nèi)被廣泛引用的模型性能排行榜。這一機(jī)制原本旨在提供一個(gè)公平、透明的評(píng)估環(huán)境,然而,最新的研究卻揭示了其排名系統(tǒng)可能存在的問(wèn)題。
由Cohere Labs、普林斯頓大學(xué)和麻省理工學(xué)院的研究人員聯(lián)合進(jìn)行的一項(xiàng)深入分析顯示,LMArena的排名可能受到了大型企業(yè)優(yōu)勢(shì)的影響。這些企業(yè)被指能夠私下測(cè)試多個(gè)模型版本,并僅選擇性能最佳的版本進(jìn)行展示,而其余的則被悄然移除。這種做法被稱為“分?jǐn)?shù)游戲”,它使得排行榜上的模型更像是經(jīng)過(guò)精心挑選的“優(yōu)等生”。例如,meta在發(fā)布Llama4之前,據(jù)稱至少測(cè)試了27個(gè)內(nèi)部版本,并在用戶批評(píng)后,部署了專門針對(duì)基準(zhǔn)測(cè)試優(yōu)化的版本。
研究還發(fā)現(xiàn),大型供應(yīng)商在獲取用戶數(shù)據(jù)方面擁有顯著優(yōu)勢(shì)。通過(guò)API接口,它們能夠收集到大量的用戶與模型交互的數(shù)據(jù),包括提示和偏好設(shè)置。然而,這些數(shù)據(jù)并未被公平地共享,OpenAI和谷歌的模型占據(jù)了絕大多數(shù)的用戶交互數(shù)據(jù)(占比高達(dá)61.4%)。這使得它們能夠利用更多的數(shù)據(jù)進(jìn)行優(yōu)化,甚至可能針對(duì)LMArena平臺(tái)進(jìn)行專門優(yōu)化,從而提升排名。
更令人擔(dān)憂的是,大量模型在未公開(kāi)通知的情況下被從LMArena平臺(tái)移除,這對(duì)開(kāi)源模型的影響尤為嚴(yán)重。在評(píng)估的243個(gè)模型中,有205個(gè)模型未經(jīng)解釋就被停用,僅有47個(gè)模型被正式標(biāo)記為棄用。這種缺乏透明度的模型移除機(jī)制,進(jìn)一步加劇了排名的失真。
面對(duì)這些指控,LMArena團(tuán)隊(duì)迅速做出回應(yīng),堅(jiān)決否認(rèn)存在偏袒行為。他們強(qiáng)調(diào),其排名系統(tǒng)反映了數(shù)百萬(wàn)真實(shí)的人類偏好,并認(rèn)為提交前的測(cè)試是合法且必要的手段,旨在確定最符合用戶期望的模型變體。LMArena團(tuán)隊(duì)還表示,他們僅依據(jù)最終公開(kāi)發(fā)布的模型進(jìn)行排名,且平臺(tái)的源代碼和數(shù)百萬(wàn)用戶交互數(shù)據(jù)均已公開(kāi),以體現(xiàn)其開(kāi)放的設(shè)計(jì)理念。
然而,盡管LMArena團(tuán)隊(duì)做出了回應(yīng),但研究人員仍堅(jiān)持認(rèn)為平臺(tái)需要進(jìn)行改革。他們呼吁LMArena公開(kāi)所有測(cè)試過(guò)的模型變體、限制供應(yīng)商單次提交的版本數(shù)量、確保模型在用戶之間更公平地分配,并對(duì)模型移除進(jìn)行清晰記錄。他們警告說(shuō),如果缺乏更嚴(yán)格的監(jiān)督,LMArena最終可能會(huì)獎(jiǎng)勵(lì)那些針對(duì)排行榜進(jìn)行策略性優(yōu)化的模型,而非真正性能卓越的模型。