6月6日,第七屆智源大會在北京盛大召開,這場被譽(yù)為“AI學(xué)術(shù)春晚”的盛會吸引了眾多科技界精英的目光。會上,北京智源人工智能研究院(簡稱“智源研究院”)發(fā)布了一系列名為“悟界”的大模型,標(biāo)志著AI技術(shù)邁向了全新的發(fā)展階段。
作為我國在大模型研發(fā)領(lǐng)域的先行者,智源研究院此次推出的“悟界”系列大模型包括原生多模態(tài)世界模型Emu3、跨本體具身大小腦協(xié)作框架RoboOS 2.0與全新智源具身大腦RoboBrain 2.0、全球首個腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ,以及全原子微觀生命模型OpenComplex2。這些創(chuàng)新成果是在“悟道”系列大模型成功發(fā)布后的又一重要里程碑。
智源研究院院長王仲遠(yuǎn)在會前透露,AI大模型技術(shù)仍具有廣闊的發(fā)展空間,當(dāng)前階段,AI在感知世界和空間方面存在不足,多模態(tài)數(shù)據(jù)尚未被充分利用。因此,從“悟道”到“悟界”的跨越是水到渠成的事,AI正加速從數(shù)字世界向物理世界邁進(jìn),這一趨勢構(gòu)成了實(shí)現(xiàn)物理AGI(通用人工智能)的關(guān)鍵路徑。
“悟道”中的“道”代表了智源對大語言模型系統(tǒng)化方法和路徑的探索,而“悟界”中的“界”則象征著虛實(shí)世界邊界的不斷突破。王仲遠(yuǎn)表示,“悟界”系列大模型體現(xiàn)了智源對AI技術(shù)從數(shù)字世界邁向物理世界的深刻洞察。
王仲遠(yuǎn)進(jìn)一步指出,“具身智能”并非特指人形機(jī)器人的智能,因此“悟界”可以適配多種機(jī)器人類別,包括輪式單臂、輪式雙臂、人形雙足、四足等。目前,智源已與20多家具身智能領(lǐng)域的領(lǐng)軍企業(yè)建立了深度的合作關(guān)系。
在與眾多具身智能創(chuàng)業(yè)者及科研學(xué)術(shù)界專家的交流中,王仲遠(yuǎn)堅信,具身智能的“小組賽”尚未結(jié)束,仍處于激烈競爭的階段。他呼吁行業(yè)內(nèi)的更多參與方共同推動具身智能產(chǎn)業(yè)的發(fā)展,因?yàn)檫@將帶來多元化的視角和理念。
王仲遠(yuǎn)還強(qiáng)調(diào),當(dāng)前人形機(jī)器人的硬件和模型技術(shù)均不夠成熟。未來,機(jī)器人有望在特定場景,特別是相對封閉的場景中率先落地,如工廠中的固定、重復(fù)、枯燥甚至危險的任務(wù),這將是具身智能的第一波紅利。
智源研究院自2018年11月在北京海淀成立以來,一直致力于成為AI創(chuàng)新的引領(lǐng)者,挑戰(zhàn)最基礎(chǔ)的問題和最關(guān)鍵的難題。智源社區(qū)已鏈接超過19萬名AI技術(shù)人員,并與近2000位海內(nèi)外青年AI科學(xué)家緊密合作,共同加速AI原始創(chuàng)新。
在成立6年多的時間里,智源研究院率先預(yù)見AI大模型時代的到來,并于2020年組建了一支百余人的技術(shù)攻關(guān)團(tuán)隊(duì),啟動了悟道系列大模型的研發(fā)工作。截至目前,智源已發(fā)布悟道1.0、2.0、3.0等多個版本,構(gòu)建了自主可控的全棧大模型技術(shù)開源體系,并成功孵化出多家國內(nèi)頭部大模型創(chuàng)業(yè)公司。
去年,智源大會發(fā)布了一系列技術(shù)產(chǎn)品,推動大模型從語言模型向多模態(tài)大模型延伸,并向世界模型方向演進(jìn),加速了從數(shù)字AI世界向物理AI世界的跨越。王仲遠(yuǎn)表示,實(shí)踐證明,智源對技術(shù)演進(jìn)路徑的預(yù)判是正確的。
據(jù)透露,目前智源開源模型的全球總下載量已超過6.4億次,比去年同期的4755萬次提升了12.5倍。AI系統(tǒng)軟件棧FlagOS已對11家國內(nèi)外廠商的18款A(yù)I芯片實(shí)現(xiàn)了統(tǒng)一支持,開源了超過160個數(shù)據(jù)集,下載量近113萬次,開源項(xiàng)目代碼下載量也超過了140萬次。
王仲遠(yuǎn)指出,盡管大模型技術(shù)取得了顯著進(jìn)展,但仍未到達(dá)發(fā)展的盡頭。當(dāng)前所說的“百模大戰(zhàn)”主要集中在大語言模型的競爭上,而大語言模型受限于互聯(lián)網(wǎng)數(shù)據(jù)的使用,基礎(chǔ)模型性能的提升速度已不如以前。他提出了突破大語言模型性能提升瓶頸的三種方法:一是通過強(qiáng)化學(xué)習(xí)在后訓(xùn)練和推理上提升性能;二是數(shù)據(jù)合成,實(shí)現(xiàn)AI自我學(xué)習(xí)和進(jìn)步;三是充分利用多模態(tài)數(shù)據(jù)。
為了推進(jìn)AI與物理世界的交互,智源通過多種研發(fā)方式,利用原生多模態(tài)世界模型讓AI感知和理解物理世界。在宏觀層面,大模型與硬件結(jié)合,通過具身智能的發(fā)展解決實(shí)際生產(chǎn)生活問題;在微觀層面,基于生成式AI的蛋白質(zhì)、腦機(jī)接口等應(yīng)用,能夠進(jìn)一步揭示微觀世界的本質(zhì),構(gòu)建AI與物理世界交互的基座。
具體來說,原生多模態(tài)世界模型Emu3使大模型具備了理解和推理世界的能力。腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ則基于Emu3架構(gòu),引入了腦信號這一新的模態(tài)數(shù)據(jù),實(shí)現(xiàn)了單一模型完成多種神經(jīng)科學(xué)任務(wù)的大一統(tǒng)。多模態(tài)與腦科學(xué)模型未來有望成為人機(jī)交互具身場景下的基礎(chǔ)模型。
王仲遠(yuǎn)表示,雖然多模態(tài)技術(shù)路線尚未收斂,但文生圖、文生視頻等技術(shù)已取得了顯著進(jìn)展,并在某些特定場景中實(shí)現(xiàn)了落地。然而,這些技術(shù)能否廣泛普及仍需一段時間。
RoboOS 2.0與RoboBrain 2.0在初代版本的基礎(chǔ)上實(shí)現(xiàn)了性能的大幅提升,并新增了多機(jī)協(xié)作規(guī)劃與物理常識驅(qū)動的空間推理能力。而OpenComplex2則能在原子分辨率層面捕捉分子相互作用及平衡構(gòu)象,探索微觀構(gòu)象波動與宏觀生物功能的跨尺度關(guān)聯(lián)。
王仲遠(yuǎn)認(rèn)為,具身智能目前仍處于技術(shù)探索的早期階段,類似于大模型在GPT-3之前的摸索期。當(dāng)前,具身智能面臨多重挑戰(zhàn),包括核心技術(shù)路徑不明確、數(shù)據(jù)采集困難以及軟硬件協(xié)同復(fù)雜等問題。他預(yù)計,未來5-10年,大小腦融合的模型可能會逐漸成熟。
在開源模型方面,智源研究院已擁有多個通用向量模型,包括BGE系列等,這些模型已被百度、騰訊、華為、阿里巴巴、微軟、亞馬遜等知名企業(yè)商業(yè)化集成。智源還開源了輕量長視頻理解模型Video-XL-2以及全能視覺生成模型OmniGen。
大會期間,智源研究院還與北京大學(xué)第一醫(yī)院簽署了戰(zhàn)略合作協(xié)議,并與持有620億港元的香港投資管理有限公司建立了戰(zhàn)略合作框架,共同構(gòu)建世界級跨區(qū)域合作的AI生態(tài)圈。這一合作將加速人才、技術(shù)、資本的融合,構(gòu)建人才循環(huán)體系,支持AI創(chuàng)新創(chuàng)業(yè),加速AI產(chǎn)業(yè)的全球化發(fā)展。