由中國科學院自動化研究所與武漢人工智能研究院共同研發的紫東太初4.0多模態推理大模型正式亮相。這款自2021年首次面世后,歷經四次技術迭代的智能系統,已從基礎文本處理能力升級為具備復雜場景深度推理能力的多模態平臺,標志著人工智能向"類人思考"方向邁出關鍵一步。
據項目負責人王金橋介紹,最新版本突破了傳統模型單一模態的局限,通過構建"視覺-語言-動作"的跨模態理解框架,實現了對動態場景的實時解析。在醫療場景中,當用戶提出"預約呼吸科門診"的語音指令時,系統不僅能識別語義需求,還能結合癥狀描述自動匹配科室分類,并完成掛號平臺的操作流程。這種"感知-理解-執行"的閉環能力,使其在180分鐘長視頻內容分析中,可精準定位關鍵片段并生成結構化摘要。
技術層面,紫東太初4.0創新性地引入"細粒度語義解析"機制,使模型在處理多模態數據時,能像人類一樣建立多層次關聯。例如在自動駕駛測試中,系統通過攝像頭捕捉的實時畫面,結合語音指令中的空間方位信息,可準確執行"打開右側車窗"等物理操作。這種突破性進展源于團隊研發的動態注意力分配算法,使模型能根據任務復雜度自動調整認知資源分配。
目前該技術已在多個領域展開產業化應用:在智慧醫療領域,為三甲醫院提供智能導診和影像分析服務;在具身智能領域,與新能源汽車企業合作開發車載交互系統;在低空經濟領域,為無人機物流提供實時路徑規劃和環境感知支持。研發團隊透露,其定制化解決方案已覆蓋城市交通管理、工業質檢等20余個細分場景,形成從算法研發到場景落地的完整技術鏈條。










