近期,學(xué)術(shù)界對(duì)大型語言模型(LLM)領(lǐng)域內(nèi)的權(quán)威評(píng)價(jià)平臺(tái)——Chatbot Arena排行榜提出了深刻質(zhì)疑,這一話題迅速引起了廣泛關(guān)注。一篇題為《排行榜幻覺》的論文,對(duì)排行榜的可信度進(jìn)行了全面剖析,揭示了其背后存在的多重問題。
論文指出,一些大型科技公司如meta,在正式公布模型前,會(huì)進(jìn)行大量版本的私下測(cè)試。以meta的Llama4為例,該公司在發(fā)布前測(cè)試了多達(dá)27個(gè)版本,最終只公布了表現(xiàn)最優(yōu)的模型。這種“擇優(yōu)發(fā)布”的做法,被批評(píng)為排行榜成績膨脹的推手,同時(shí)也可能誤導(dǎo)公眾對(duì)模型實(shí)際能力的認(rèn)知。
研究還發(fā)現(xiàn),數(shù)據(jù)訪問的不平等也是影響排行榜公正性的關(guān)鍵因素。專有模型,如Google和OpenAI的產(chǎn)品,能夠獲得遠(yuǎn)超開源模型的用戶反饋數(shù)據(jù)。具體而言,Google和OpenAI分別占據(jù)了測(cè)試數(shù)據(jù)的19.2%和20.4%,而83個(gè)開源模型共同占有的數(shù)據(jù)份額僅為29.7%。這種數(shù)據(jù)資源的不均衡,使得開源模型在排行榜上的表現(xiàn)受到嚴(yán)重制約。
更令人震驚的是,研究團(tuán)隊(duì)還發(fā)現(xiàn),排行榜上被悄然棄用的模型數(shù)量遠(yuǎn)超官方統(tǒng)計(jì)。在243個(gè)模型中,有205個(gè)模型被棄用,而官方僅記錄了47個(gè)。這一發(fā)現(xiàn)無疑進(jìn)一步加劇了排行榜公正性的爭議。
面對(duì)這些質(zhì)疑,Chatbot Arena排行榜的官方進(jìn)行了回應(yīng)。他們承認(rèn)存在私下測(cè)試的情況,但堅(jiān)稱這并不代表排行榜存在偏見。同時(shí),官方強(qiáng)調(diào),排行榜的排名是基于大量用戶的真實(shí)偏好得出的。然而,研究團(tuán)隊(duì)對(duì)此并不認(rèn)同,他們認(rèn)為這種快速刷榜的行為并不能真實(shí)反映模型的技術(shù)進(jìn)步。
為了提升排行榜的公正性和透明度,研究團(tuán)隊(duì)提出了多項(xiàng)改進(jìn)建議。他們建議禁止撤回已提交的分?jǐn)?shù),限制每個(gè)廠商的非正式模型數(shù)量,并提高模型棄用的透明度。這些建議旨在從制度層面入手,解決排行榜存在的問題。
隨著對(duì)排行榜機(jī)制的深入探討,AI社區(qū)逐漸意識(shí)到,單一排行榜可能無法全面、準(zhǔn)確地反映模型的能力。因此,尋找多個(gè)評(píng)估平臺(tái)成為了越來越重要的趨勢(shì)。在此背景下,卡帕西提出的OpenRouter方案備受矚目。OpenRouter是一個(gè)能夠統(tǒng)一訪問多種模型的接口,盡管目前在多樣性和使用量上還有待提升,但其潛力巨大,被視為解決排行榜問題的一種可能途徑。