国产欧美精品区一区二区三区,欧美日韩国产经典色站一区二区三区,国产伊人精品在线

人工智能領(lǐng)域近期掀起了一場(chǎng)關(guān)于公共基準(zhǔn)測(cè)試平臺(tái)公正性的熱議。LMArena，這一備受矚目的平臺(tái)，近期被指存在對(duì)大型供應(yīng)商如OpenAI、谷歌及meta的潛在偏袒，引發(fā)了行業(yè)內(nèi)的廣泛關(guān)注和爭(zhēng)議。

LMArena平臺(tái)通過(guò)展示不同大型語(yǔ)言模型（LLM）的回復(fù)對(duì)比，并由用戶投票選出更優(yōu)者，形成了一個(gè)在行業(yè)內(nèi)被廣泛引用的模型性能排行榜。這一機(jī)制原本旨在提供一個(gè)公平、透明的評(píng)估環(huán)境，然而，最新的研究卻揭示了其排名系統(tǒng)可能存在的問(wèn)題。

由Cohere Labs、普林斯頓大學(xué)和麻省理工學(xué)院的研究人員聯(lián)合進(jìn)行的一項(xiàng)深入分析顯示，LMArena的排名可能受到了大型企業(yè)優(yōu)勢(shì)的影響。這些企業(yè)被指能夠私下測(cè)試多個(gè)模型版本，并僅選擇性能最佳的版本進(jìn)行展示，而其余的則被悄然移除。這種做法被稱為“分?jǐn)?shù)游戲”，它使得排行榜上的模型更像是經(jīng)過(guò)精心挑選的“優(yōu)等生”。例如，meta在發(fā)布Llama4之前，據(jù)稱至少測(cè)試了27個(gè)內(nèi)部版本，并在用戶批評(píng)后，部署了專門針對(duì)基準(zhǔn)測(cè)試優(yōu)化的版本。

研究還發(fā)現(xiàn)，大型供應(yīng)商在獲取用戶數(shù)據(jù)方面擁有顯著優(yōu)勢(shì)。通過(guò)API接口，它們能夠收集到大量的用戶與模型交互的數(shù)據(jù)，包括提示和偏好設(shè)置。然而，這些數(shù)據(jù)并未被公平地共享，OpenAI和谷歌的模型占據(jù)了絕大多數(shù)的用戶交互數(shù)據(jù)（占比高達(dá)61.4%）。這使得它們能夠利用更多的數(shù)據(jù)進(jìn)行優(yōu)化，甚至可能針對(duì)LMArena平臺(tái)進(jìn)行專門優(yōu)化，從而提升排名。

更令人擔(dān)憂的是，大量模型在未公開(kāi)通知的情況下被從LMArena平臺(tái)移除，這對(duì)開(kāi)源模型的影響尤為嚴(yán)重。在評(píng)估的243個(gè)模型中，有205個(gè)模型未經(jīng)解釋就被停用，僅有47個(gè)模型被正式標(biāo)記為棄用。這種缺乏透明度的模型移除機(jī)制，進(jìn)一步加劇了排名的失真。

面對(duì)這些指控，LMArena團(tuán)隊(duì)迅速做出回應(yīng)，堅(jiān)決否認(rèn)存在偏袒行為。他們強(qiáng)調(diào)，其排名系統(tǒng)反映了數(shù)百萬(wàn)真實(shí)的人類偏好，并認(rèn)為提交前的測(cè)試是合法且必要的手段，旨在確定最符合用戶期望的模型變體。LMArena團(tuán)隊(duì)還表示，他們僅依據(jù)最終公開(kāi)發(fā)布的模型進(jìn)行排名，且平臺(tái)的源代碼和數(shù)百萬(wàn)用戶交互數(shù)據(jù)均已公開(kāi)，以體現(xiàn)其開(kāi)放的設(shè)計(jì)理念。

然而，盡管LMArena團(tuán)隊(duì)做出了回應(yīng)，但研究人員仍堅(jiān)持認(rèn)為平臺(tái)需要進(jìn)行改革。他們呼吁LMArena公開(kāi)所有測(cè)試過(guò)的模型變體、限制供應(yīng)商單次提交的版本數(shù)量、確保模型在用戶之間更公平地分配，并對(duì)模型移除進(jìn)行清晰記錄。他們警告說(shuō)，如果缺乏更嚴(yán)格的監(jiān)督，LMArena最終可能會(huì)獎(jiǎng)勵(lì)那些針對(duì)排行榜進(jìn)行策略性優(yōu)化的模型，而非真正性能卓越的模型。

這一動(dòng)向引發(fā)了市場(chǎng)的廣泛關(guān)注，尤其是在公司旗下的安徽訊飛云創(chuàng)科技有限公司近期入股了北京超智能科技有限公司的背景下。根據(jù)公開(kāi)資料顯示，北京超智能科技有限公司的經(jīng)營(yíng)范圍涵蓋人工智能基礎(chǔ)軟件開(kāi)發(fā)及量子計(jì)算技術(shù)服務(wù)，…

科大訊飛在音頻技術(shù)領(lǐng)域的不斷探索與創(chuàng)新，正是其在科技行業(yè)中持續(xù)領(lǐng)先的重要原因之一。在這一背景下，科大訊飛的“麥克風(fēng)”不僅是一次產(chǎn)品的創(chuàng)新，更是對(duì)未來(lái)音頻應(yīng)用場(chǎng)景的積極響應(yīng)。科大訊飛的新專利“麥克風(fēng)”也將可能…

國(guó)投瑞銀中證機(jī)器人指數(shù)發(fā)起式A成立于2024年11月19日，業(yè)績(jī)比較基準(zhǔn)為中證機(jī)器人指數(shù)收益率×95%+商業(yè)銀行活期存款利率(稅后)×5%。趙建自2024年10月25日管理（或擬管理）該基金，任職期內(nèi)收益1…

全棧AI戰(zhàn)略的厚積薄發(fā)，內(nèi)外雙驅(qū)的加速邏輯聯(lián)想成為超級(jí)智能體落地的先鋒和旗手，不僅在于上面提到的“全”和“速”，更在于其在“全棧AI”上引領(lǐng)者的地位。在這方面，作為驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的技術(shù)引擎——擎天的持續(xù)升級(jí)，…

《新媒體與社會(huì)》2025年第1輯（總第37輯）“專題策劃”從三個(gè)方面聚焦“國(guó)際傳播與國(guó)際輿論”：一是國(guó)際傳播的實(shí)踐路徑研究；二是國(guó)際傳播話語(yǔ)體系的建構(gòu)研究；三是地方故事的國(guó)際傳播研究。《新媒體公共傳播（第9輯…

招商中證機(jī)器人指數(shù)型發(fā)起式A成立于2024年1月19日，業(yè)績(jī)比較基準(zhǔn)為中證機(jī)器人指數(shù)收益率×95%+中國(guó)人民銀行人民幣活期存款利率(稅后)×5%。許榮漫自2023年12月29日管理（或擬管理）該基金，任職期…

兩個(gè)多小時(shí)的主題演講，AI 成了絕對(duì)的主角：不僅華為云拿出新一代昇騰 AI 云服務(wù)和全面升級(jí)的盤(pán)古大模型5.5，華為終端也首次推出鴻蒙智能體框架，目標(biāo)直指端側(cè)智能體生態(tài)。曾經(jīng)受限于高端 AI 芯片的華為，…

據(jù)IPO早知道消息，清華系具身智能企業(yè)「星動(dòng)紀(jì)元」日前推出了一款超擬人服務(wù)機(jī)器人星動(dòng)Q5。自主規(guī)劃路線、狹窄通道避障、復(fù)雜地形穿梭樣樣行，貨架通道、酒店走廊這些小空間，傳統(tǒng)服務(wù)機(jī)器人“卡殼” 的地方，它都…

不同于以往側(cè)重下載速度的網(wǎng)絡(luò)需求，未來(lái)隨著智能穿戴、車聯(lián)網(wǎng)、AI助理、機(jī)器人等實(shí)時(shí)交互場(chǎng)景的日益興起，對(duì)數(shù)據(jù)上行能力的要求將顯著增強(qiáng)。曹明表示，未來(lái)中國(guó)電信與華為將繼續(xù)解鎖 5G-A 潛能，并推進(jìn)“AI+…

發(fā)布會(huì)上，中國(guó)移動(dòng)和榮耀發(fā)布AI終端戰(zhàn)略合作啟航計(jì)劃，旨在共同打造開(kāi)放、創(chuàng)新的AI終端生態(tài)，聯(lián)合探索理解用戶、會(huì)思考、能執(zhí)行的"智能終端產(chǎn)品，進(jìn)一步推動(dòng)智能體在多終端、多系統(tǒng)之間的深度協(xié)同，為用戶帶來(lái)更智能…

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清久久

LMArena公正性遭質(zhì)疑：大型AI供應(yīng)商是否享有不公優(yōu)勢(shì)？

日本精品一区二区三区高清 久久

LMArena公正性遭質(zhì)疑：大型AI供應(yīng)商是否享有不公優(yōu)勢(shì)？

日本精品一区二区三区高清久久