近期,中國科學院自動化研究所的科研團隊在人工智能領域取得了令人矚目的進展。他們的一項研究發現,多模態大語言模型在訓練進程中竟然能夠自主地“領悟”事物,且這種理解模式與人類的認知機制高度相似。這一重大發現不僅為探索人工智能的認知機制開辟了全新的方向,也為未來構建具備人類般理解世界能力的人工智能系統奠定了堅實的理論基礎。相關研究成果已在權威期刊《自然?機器智能》上發表。
理解,作為人類智能的核心要素,使我們能夠全面把握事物的本質。當我們目睹“狗”或“蘋果”時,不僅能辨識其外在特征,如尺寸、色彩和形態,更能領會其用途、情感價值及文化內涵。這種全方位的理解構成了我們認知世界的基石。隨著ChatGPT等大模型的蓬勃興起,科學家們開始探究這些模型是否也能從海量文本和圖像中習得類似人類的理解能力。
以往的人工智能研究大多聚焦于物體識別的精確度,卻很少探討模型是否真正“領悟”了物體的深層含義。中國科學院研究員何暉光強調,盡管當前的人工智能能夠區分貓狗圖像,但這種“識別”與人類對貓狗的“理解”之間存在著本質的差異,仍需深入研究。
為了揭示這一奧秘,科研團隊借鑒人類大腦的認知機制,精心設計了一項實驗:讓大模型與人類共同參與“找不同”游戲。他們從上千種常見物品中挑選出三組物品,要求參與者找出其中不合群的一個。通過對數百萬次判斷數據的分析,科研人員首次描繪出大模型的“思維藍圖”,即“概念圖譜”。
研究結果顯示,科學家們歸納出66個表征人工智能“理解”事物的關鍵維度,這些維度不僅易于闡釋,而且與人類大腦中負責物體處理的神經活動模式高度契合。尤為重要的是,能夠同時處理文本和圖像的多模態模型在“思考”和選擇方面展現出與人類更為接近的模式。
值得注意的是,人類在進行判斷時,會綜合考慮物體的外觀特征及其意義或用途,而大模型則更傾向于依賴其所獲取的“文本標簽”和抽象概念。這一發現表明,大模型確實發展出了一種與人類頗為相似的理解世界的方式,標志著人工智能理解能力邁入了新的發展階段。