日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

蘋果與劍橋大學(xué)合作創(chuàng)新AI評(píng)審系統(tǒng),提升復(fù)雜任務(wù)評(píng)估質(zhì)量

   時(shí)間:2025-07-24 20:18:31 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) IP:北京 發(fā)表評(píng)論無(wú)障礙通道
 

近日,科技界迎來(lái)了一項(xiàng)新的合作成果,蘋果公司與劍橋大學(xué)聯(lián)手推出了一項(xiàng)創(chuàng)新的AI評(píng)估系統(tǒng)。這一系統(tǒng)旨在通過(guò)引入外部驗(yàn)證工具,提升AI評(píng)審員的能力,進(jìn)而增強(qiáng)評(píng)估的整體質(zhì)量。

在評(píng)估大型語(yǔ)言模型(LLM)的過(guò)程中,研究人員和開發(fā)者常常借助AI的力量,也就是所謂的“LLM作為評(píng)審員”。然而,這一方法也面臨著不少挑戰(zhàn),特別是在處理長(zhǎng)篇事實(shí)核查、高級(jí)編碼以及復(fù)雜數(shù)學(xué)問(wèn)題等任務(wù)時(shí),評(píng)估的準(zhǔn)確性往往會(huì)受到影響。

為了克服這些挑戰(zhàn),蘋果與劍橋大學(xué)的研究人員共同發(fā)表了一篇新的研究論文,詳細(xì)介紹了一種新的評(píng)估系統(tǒng)。該系統(tǒng)通過(guò)為AI評(píng)審員配備外部驗(yàn)證工具,旨在克服人類和AI在注釋過(guò)程中的局限性,從而提高評(píng)估的準(zhǔn)確性。

人類評(píng)審員在評(píng)估過(guò)程中可能會(huì)受到時(shí)間限制、疲勞以及個(gè)人寫作風(fēng)格等因素的影響,從而產(chǎn)生偏見。而AI在處理上述復(fù)雜任務(wù)時(shí),也面臨著不小的困難。為了解決這些問(wèn)題,研究人員創(chuàng)建了一種具有自主性的評(píng)估代理。該代理能夠評(píng)估響應(yīng),并根據(jù)需要選擇使用外部工具,以確保評(píng)估的準(zhǔn)確性。

評(píng)估過(guò)程主要包括三個(gè)步驟:首先是初始領(lǐng)域評(píng)估,其次是工具的使用,最后是最終決策。在工具使用環(huán)節(jié),事實(shí)核查工具會(huì)利用網(wǎng)絡(luò)搜索來(lái)驗(yàn)證響應(yīng)中的事實(shí)準(zhǔn)確性;代碼執(zhí)行工具則會(huì)借助OpenAI的代碼解釋器來(lái)運(yùn)行并驗(yàn)證代碼的正確性;而數(shù)學(xué)核查工具則是代碼執(zhí)行工具的一個(gè)專門版本,用于驗(yàn)證數(shù)學(xué)和算術(shù)運(yùn)算的準(zhǔn)確性。

如果評(píng)估代理判斷沒有合適的工具可以幫助判斷,那么系統(tǒng)將默認(rèn)使用基線LLM注釋器,以避免在簡(jiǎn)單任務(wù)上進(jìn)行不必要的處理,從而可能導(dǎo)致的性能下降。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 汕头市| 沙洋县| 荣昌县| 灵寿县| 六盘水市| 株洲县| 改则县| 北安市| 凤阳县| 福贡县| 莎车县| 东莞市| 靖西县| 福鼎市| 汪清县| 腾冲县| 平谷区| 修文县| 淳安县| 青海省| 呼图壁县| 昌江| 大庆市| 哈尔滨市| 阜平县| 永济市| 广丰县| 古田县| 新巴尔虎左旗| 利津县| 宣城市| 河南省| 孟州市| 神池县| 牟定县| 常山县| 广昌县| 咸丰县| 察隅县| 若尔盖县| 汪清县|