語言,這一被古希臘哲人亞里士多德視為人類本質(zhì)標志的能力,長久以來被認為蘊含著人類獨有的特質(zhì)。然而,隨著人工智能技術的飛速發(fā)展,大語言模型在語言處理領域的表現(xiàn)不斷刷新人們的認知。近日,一項由加州大學伯克利分校與羅格斯大學聯(lián)合開展的研究,將OpenAI的o1模型推上了語言學能力的風口浪尖,其展現(xiàn)出的元語言能力,正挑戰(zhàn)著人類對自身語言優(yōu)勢的傳統(tǒng)認知。
研究團隊設計了一系列嚴苛的語言學測試,旨在探究大語言模型是否具備人類語言學家所特有的分析能力。測試內(nèi)容涵蓋虛構語言規(guī)則歸納、多重遞歸結(jié)構解析以及音韻學規(guī)則推斷等多個維度。在眾多參與測試的模型中,o1的表現(xiàn)脫穎而出,其能力之強,令人驚嘆。
以多重遞歸結(jié)構為例,這種在語言學中被視為人類語言與思維決定性特征的結(jié)構,曾被認為是大模型難以攻克的難關。然而,o1不僅成功解析了包含多層遞歸的復雜句子,還能在原有基礎上進一步增加遞歸層次,生成新的符合語法規(guī)則的句子。這一能力,在以往的大模型中幾乎未曾出現(xiàn),它標志著o1在語言處理上已不僅僅停留在表面模仿,而是深入到了語言結(jié)構的本質(zhì)層面。
在歧義句識別方面,o1同樣展現(xiàn)出了卓越的能力。面對“Eliza wanted her cast out”這樣一句充滿歧義的句子,o1能夠準確識別出“cast”作為名詞和動詞時的兩種不同含義,并為每種含義生成符合語言學規(guī)則的句法樹。相比之下,其他模型如GPT-4、Llama 3.1等,則往往只能生成不合語法的結(jié)構,甚至對語義產(chǎn)生誤解。
音韻學作為研究聲音模式及音素組織方式的學科,其復雜性不言而喻。研究團隊為此創(chuàng)建了30種全新的迷你語言,以測試大模型在面對未知語言時的語音規(guī)則推斷能力。令人驚訝的是,o1在這些虛構語言上的表現(xiàn)依舊出色,它能夠在沒有任何先驗知識的情況下,正確推斷出語音規(guī)則,展現(xiàn)出強大的語言適應性和學習能力。
o1的這些卓越表現(xiàn),引發(fā)了人們對大模型語言理解能力的深入思考。長久以來,人們普遍認為,盡管大模型在運用語言方面可能非常擅長,但它們并不具備以復雜方式分析語言的能力。然而,o1的出現(xiàn),無疑對這一觀點提出了挑戰(zhàn)。它不僅能夠像人類語言學家一樣逐步推理、驗證假設、構建抽象規(guī)則,還能在語言處理上展現(xiàn)出前所未有的深度和廣度。
那么,為何只有o1能夠展現(xiàn)出如此強大的語言分析能力呢?研究團隊認為,這很可能得益于o1所采用的思維鏈技術。這種技術使得o1能夠像人類一樣進行逐步推理,從而在處理復雜語言問題時更加得心應手。相比之下,其他模型則往往缺乏這種逐步推理的能力,導致在處理復雜語言任務時表現(xiàn)不佳。
隨著o1等大模型在語言處理領域的不斷突破,人們不禁開始思考一個問題:當模型的性能隨著規(guī)模擴大而不斷提升時,大模型是否有一天會在語言理解上超越人類呢?對于這個問題,目前尚無定論。一方面,大模型在語言學上尚未提出過原創(chuàng)性的觀點,也沒有教給我們關于語言的新知識;另一方面,隨著計算能力和訓練數(shù)據(jù)的不斷增加,語言模型在語言技能上超越人類并非不可能。因此,這一問題的答案,或許只能留給時間去揭曉。
盡管如此,o1的出現(xiàn)已經(jīng)足以改變我們對大模型語言理解能力的評價標準。過去,我們往往更關注模型的任務產(chǎn)出,即它能否完成特定的語言任務;而現(xiàn)在,我們開始更加注重模型的結(jié)構解釋能力,即它能否對語言結(jié)構進行深入的分析和解釋。這種評價標準的轉(zhuǎn)變,不僅將推動AI研究的深入發(fā)展,還將對教育、應用治理等領域產(chǎn)生深遠影響。當可解釋性成為首要指標時,AI研究、教育與應用治理將迎來同一套標準——把“為什么對”放在“對不對”之前。











