三星電子宣布推出一款自主研發(fā)的AI性能基準(zhǔn)測試工具——TRUEBench,全稱為“可信真實(shí)場景使用評(píng)估基準(zhǔn)”(Trustworthy Real-world Usage evaluation Benchmark)。該工具由三星研究院開發(fā),旨在填補(bǔ)現(xiàn)有AI基準(zhǔn)測試工具在多語言支持和復(fù)雜任務(wù)評(píng)估方面的空白,為企業(yè)級(jí)AI應(yīng)用提供更貼近實(shí)際場景的評(píng)估標(biāo)準(zhǔn)。
三星研究院在開發(fā)過程中發(fā)現(xiàn),傳統(tǒng)AI基準(zhǔn)測試工具普遍存在兩大缺陷:一是語言覆蓋范圍有限,主要聚焦英語環(huán)境;二是測試場景過于單一,多局限于單輪問答結(jié)構(gòu)。而TRUEBench通過構(gòu)建包含12種語言的測試體系,覆蓋了從8個(gè)字符的簡短指令到2萬字符的長文檔處理等多樣化任務(wù),形成了包含2485組測試集的評(píng)估框架。這些測試集被劃分為10個(gè)大類、46個(gè)子類,涵蓋內(nèi)容生成、數(shù)據(jù)分析、文本摘要、跨語言翻譯等10項(xiàng)核心企業(yè)任務(wù)。
該工具的評(píng)估機(jī)制采用AI與人類專家協(xié)同設(shè)計(jì)的自動(dòng)評(píng)分系統(tǒng),通過多維度參數(shù)構(gòu)建可靠性驗(yàn)證模型。三星特別強(qiáng)調(diào),TRUEBench的測試設(shè)計(jì)基于企業(yè)內(nèi)部AI生產(chǎn)力提升的實(shí)踐經(jīng)驗(yàn),能夠更精準(zhǔn)地反映AI模型在實(shí)際業(yè)務(wù)場景中的問題解決能力。目前,工具的數(shù)據(jù)樣本及排行榜已在開源平臺(tái)Hugging Face上線,用戶可免費(fèi)測試最多5個(gè)AI模型,并獲取性能效率對(duì)比報(bào)告。
三星電子DX部門首席技術(shù)官兼三星研究院院長Paul (Kyungwhoon) Cheun表示:“三星研究院在真實(shí)業(yè)務(wù)場景中積累了深厚的AI應(yīng)用經(jīng)驗(yàn),這使我們具備開發(fā)專業(yè)評(píng)估工具的獨(dú)特優(yōu)勢(shì)。TRUEBench的推出不僅能為行業(yè)提供生產(chǎn)力領(lǐng)域的評(píng)估標(biāo)準(zhǔn),也將進(jìn)一步強(qiáng)化三星在技術(shù)創(chuàng)新領(lǐng)域的領(lǐng)導(dǎo)地位。”