滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

谷歌LMEval框架：一鍵解決AI模型評測難題

時間：2025-05-27 15:50:13 來源：ITBEAR編輯：快訊團隊 發表評論無障礙通道

近日，科技界迎來了一項重要進展，谷歌公司推出了名為LMeval的開源框架，旨在為大語言模型及多模態模型提供一個統一、標準化的評測體系。這一消息由知名科技媒體The Decoder在5月26日的報道中首次披露。

長久以來，新型AI模型的評測工作一直面臨著諸多挑戰。由于不同供應商在API設計、數據格式以及基準設置上的差異性，跨模型比較不僅耗時費力，還極為復雜。而LMeval框架的推出，無疑為解決這一問題提供了全新的思路。

LMeval框架通過一次性的基準設置，即可實現評測流程的標準化，極大地簡化了評測工作的復雜度，為研究人員和開發者節省了大量時間和資源。這一創新性的設計，無疑為AI模型的評測工作帶來了革命性的變化。

不僅如此，LMeval還通過LiteLLM框架實現了對Google、OpenAI、Anthropic、Ollama和Hugging Face等平臺之間接口差異的兼容，確保了跨平臺測試的無縫運行。這一功能不僅提升了測試的便捷性，還進一步推動了AI模型評測的標準化進程。

LMeval框架的評測范圍廣泛，不僅支持文本評測，還涵蓋了圖像和代碼等領域的基準測試。其靈活的輸入格式使得新測試項的擴展變得輕而易舉，同時支持是非題、多選題和自由文本生成等多種評估類型。LMeval還能有效識別模型采用的“規避策略”，即故意給出模糊回答以避免生成有害內容的行為。

為了更全面地評估模型的安全性，谷歌還引入了Giskard安全評分，通過百分比的形式直觀展示模型在規避有害內容方面的表現。同時，測試結果被存儲在自加密的SQLite數據庫中，既保證了數據的本地化存儲，又避免了被搜索引擎索引的風險，從而實現了隱私與便捷的兼顧。

LMeval框架還具備增量評估功能，這意味著在新增模型或測試項時，無需重新運行整個測試流程，僅需執行新增部分即可。其多線程引擎能夠并行處理多項計算任務，有效降低了計算成本和時間消耗。

為了更直觀地展示模型在不同類別中的表現，谷歌還開發了LMevalboard可視化工具。該工具通過雷達圖的形式，清晰地展示了模型在各項任務中的得分情況。用戶可以通過該工具深入查看具體任務，精準定位模型錯誤，并直接比較多個模型在特定問題上的差異。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

小米YU7吸引力爆棚！留資用戶數竟是SU7同期的3倍

6月3日，在小米投資者日上，小米方面透露，截至5月25日，YU7留資用戶數是SU7技術發布同期的3倍；并且超過60%留資用戶為首次留資；超過40%留資用戶未使用過小米產品。…

06-03

網文盛宴！中文在線第十八屆作家年會西雙版納綻放新光彩

06-03

四企聯手啟動電解單元電極金屬回收，共筑氯堿行業循環經濟新篇章

06-03

尼克·卡西迪雨戰奪冠！捷豹TCS車隊上海站笑傲電動方程式錦標賽

06-03

抖音五一吃喝玩樂節：餐飲酒旅商家如何巧借節點營銷實現生意飛躍？

06-03

谷歌Messages應用大變身！Material 3 Expressive設計帶來全新視覺體驗

06-03

諾基亞Wi-Fi 7新品來襲！Beacon 4/9路由器北歐極簡風亮相

06-03

大疆DJI RC Track遙控器意外曝光：小巧可追蹤，會發布嗎？

06-03

華為WATCH 5攜手Pura 80系列，6月11日共赴全場景新品盛宴！

06-03

酷冷至尊Mobius 120 VX白色無光風扇上市，與黑色版同價79元

06-03

智元遠征A2人形機器人：全球首獲中歐美三大區域認證，實力領跑

06-03

英偉達聯手MIT及港大，Fast-dLLM框架讓語言模型推理速度飆升

06-03

雷軍復盤小米：不斷探索初心、使命與未來方向

6月3日，雷軍發文稱，小米每次復盤時都會問自己三個問題：小米是誰？小米為什么而奮斗？小米從哪里來，將往哪里去？…

06-03

騰勢N9兩個月交付破萬，科技豪華與安全如何成其圈粉秘訣？

06-03

萬麗雪狐RTX5080 OC顯卡新推淺藍版，二次元風格再升級，售8999元

06-03

點擊查看更多 +

全站最新

日系車緣何熱銷？修理工揭秘：油耗低、維修省、保值高是關鍵

大灣區車展：中國品牌豪華車大放異彩，你還買得起嗎？

理想汽車超充站大飛躍！2年破2400座，全國高速布局領先同行

昂科威plus真實體驗：4200公里后，車主為何說沒想象中好？

奔馳C級煥新2.0T，能否撼動寶馬3系豪華中型車地位？

紅旗天工06挑戰特斯拉Model Y：700公里續航+智能科技，僅售18萬起

熱門內容

本欄最新

網文盛宴！中文在線第十八屆作家年會西雙版納綻放新光彩

四企聯手啟動電解單元電極金屬回收，共筑氯堿行業循環經濟新篇章

尼克·卡西迪雨戰奪冠！捷豹TCS車隊上海站笑傲電動方程式錦標賽

抖音五一吃喝玩樂節：餐飲酒旅商家如何巧借節點營銷實現生意飛躍？

谷歌Messages應用大變身！Material 3 Expressive設計帶來全新視覺體驗

諾基亞Wi-Fi 7新品來襲！Beacon 4/9路由器北歐極簡風亮相

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

谷歌LMEval框架：一鍵解決AI模型評測難題

日本精品一区二区三区高清久久