科技領(lǐng)域近日迎來一項突破性進展:谷歌公司通過其AI Studio平臺開發(fā)的一款未命名AI模型,在歷史文獻(xiàn)破譯領(lǐng)域展現(xiàn)出接近人類專家的能力。該模型經(jīng)測試后,在處理復(fù)雜手稿時的表現(xiàn)引發(fā)學(xué)界關(guān)注,其精準(zhǔn)度已達(dá)到專業(yè)轉(zhuǎn)寫人員的水平。
歷史學(xué)家馬克·漢弗里斯(Mark Humphries)主導(dǎo)的基準(zhǔn)測試顯示,這款A(yù)I模型在解析五份高難度歷史手稿時,整體字符錯誤率僅1.7%。其中約七成錯誤集中在標(biāo)點符號和大小寫格式,而非單詞本身。若排除這類非核心錯誤,模型的實際錯誤率可降至0.56%,相當(dāng)于每200個字符僅出現(xiàn)一次誤差。這一數(shù)據(jù)與長期從事文獻(xiàn)轉(zhuǎn)寫的專業(yè)人員相當(dāng)。
測試樣本覆蓋18至19世紀(jì)多種手寫風(fēng)格,包含字跡潦草、拼寫不規(guī)范及語法混亂的復(fù)雜文本。例如,在處理一份奧爾巴尼賬簿的轉(zhuǎn)錄任務(wù)時,模型成功還原了模糊不清的數(shù)字記錄,其表現(xiàn)甚至超越了簡單文字識別范疇。
更引人注目的是該模型展現(xiàn)的推理能力。在分析18世紀(jì)商人日記時,面對僅標(biāo)注數(shù)字"145"的購糖記錄,模型未直接轉(zhuǎn)錄為"145",而是通過反向推算賬本總價,結(jié)合當(dāng)時英國貨幣與重量單位的換算關(guān)系,最終輸出"14磅5盎司"。這一過程涉及多維度信息整合,顯示出AI對歷史語境的深度理解。
盡管初步成果顯著,研究團隊也指出當(dāng)前評估的局限性。由于該模型目前僅通過A/B測試形式零星發(fā)布,大規(guī)模系統(tǒng)性測試難以開展。現(xiàn)階段僅完成了基準(zhǔn)數(shù)據(jù)集約10%的樣本驗證,后續(xù)仍需擴大測試范圍以確認(rèn)其穩(wěn)定性。這項技術(shù)若能進一步完善,或?qū)闅v史研究提供全新工具,大幅降低文獻(xiàn)整理成本。











