在AI領(lǐng)域的聚光燈下,階躍星辰公司及其低調(diào)而堅定的CEO姜大昕近日成為了媒體關(guān)注的焦點。在一場于北京舉行的媒體溝通會上,姜大昕分享了他對多模態(tài)人工智能(AI)發(fā)展的深刻見解,以及階躍星辰在這條探索之路上的獨特步伐。
姜大昕強調(diào),多模態(tài)技術(shù)是實現(xiàn)通用人工智能(AGI)的關(guān)鍵路徑。他指出,過去一年中,階躍星辰雖未在融資或市場聲量上大放異彩,卻默默地在多模態(tài)領(lǐng)域深耕細(xì)作,發(fā)布了多達(dá)22款自研基座模型,其中16款為多模態(tài)模型,占比超過七成,這一成就讓階躍星辰在業(yè)內(nèi)贏得了“多模態(tài)卷王”的稱號。
與語言模型領(lǐng)域的技術(shù)路線已相對明確不同,多模態(tài)技術(shù)的探索仍處于迷霧之中。姜大昕表示,階躍星辰押注的是“理解+生成一體”的原生多模方向,這一方向在技術(shù)演進(jìn)上可能還處于GPT 1.0之前的階段,即Transformer剛出現(xiàn)時的時期。階躍星辰的技術(shù)路線尤為艱難,要求同一個大模型既要能理解,也要能生成,這構(gòu)成了公司自成立以來的發(fā)展主線。
姜大昕進(jìn)一步解釋了多模態(tài)技術(shù)的難點和重要性。他提到,多模態(tài)的一大挑戰(zhàn)在于融合過程中不能損失單個模態(tài)的性能,尤其是不能降智。階躍星辰所追求的理解生成一體化,意味著模型能夠理解畫面中的物體關(guān)系,并通過生成端來監(jiān)督;同時,生成的內(nèi)容也需要理解來控制,以確保其符合物理世界的認(rèn)知。他認(rèn)為,多模態(tài)對于AGI至關(guān)重要,因為人的智能是多元化的,包括語言、視覺、空間等多種智能,這些智能需要通過多模態(tài)來進(jìn)行學(xué)習(xí)。
在溝通會上,姜大昕還分享了對多模態(tài)領(lǐng)域未來發(fā)展趨勢的看法。他認(rèn)為,下一步的模型發(fā)展趨勢包括在預(yù)訓(xùn)練的基礎(chǔ)模型上加入強化學(xué)習(xí),以提高模型的推理能力;以及將推理引入到多模態(tài)領(lǐng)域,實現(xiàn)模型的感知能力和內(nèi)部知識的結(jié)合。他還強調(diào)了視覺領(lǐng)域的理解生成一體化的重要性,認(rèn)為這是解決模型生成時非思維鏈問題的關(guān)鍵。
姜大昕還提到了DeepSeek等推理模型的進(jìn)步對多模態(tài)技術(shù)探索的推動作用。他認(rèn)為,DeepSeek的成功經(jīng)驗表明,傳統(tǒng)的投流邏輯在AI時代可能不再適用。階躍星辰也選擇了一條不同于主流的道路,沒有盲目追求流量,而是專注于基礎(chǔ)大模型的研發(fā),以及與行業(yè)頭部公司的合作。
階躍星辰已與Oppo、吉利汽車集團(tuán)等企業(yè)展開深度合作,將Agent應(yīng)用在汽車、手機等關(guān)鍵場景中。姜大昕表示,隨著模型能力的不斷增強,將有更多的應(yīng)用被解鎖和成熟。他特別提到了智能終端Agent的方向,認(rèn)為Agent將更好地幫助人類完成任務(wù),理解用戶所處環(huán)境和任務(wù)的上下文,并有望從數(shù)字世界走向物理世界,延伸到智能駕駛和人形機器人等領(lǐng)域。
姜大昕還透露,階躍星辰內(nèi)部已經(jīng)組織起不同技術(shù)路線的數(shù)支團(tuán)隊,以探索可能的技術(shù)突破。他認(rèn)為,多模態(tài)領(lǐng)域的任何一個短板都可能延緩AGI的進(jìn)程,因此階躍星辰將繼續(xù)在這條道路上堅定前行。
在溝通會的最后,姜大昕表達(dá)了對階躍星辰未來的信心。他表示,盡管AI領(lǐng)域的技術(shù)發(fā)展日新月異,階躍星辰將堅持基礎(chǔ)大模型的研發(fā),并與行業(yè)伙伴緊密合作,共同推動多模態(tài)技術(shù)的發(fā)展和應(yīng)用。