近期,一則科技新聞引起了廣泛關注,據悉,蘋果公司攜手復旦大學,成功推出了名為StreamBridge的端側視頻大語言模型(Video-LLMs)框架,該框架旨在增強人工智能對直播流視頻的理解能力。
傳統上,視頻大語言模型在處理靜態視頻方面表現出色,但在諸如機器人技術和自動駕駛等需要實時感知和響應的場景中,卻顯得力不從心。這些場景要求模型能夠迅速理解直播視頻流的內容,并據此作出反應。StreamBridge框架的推出,正是為了解決這一難題。
蘋果公司與復旦大學的研究團隊,在StreamBridge框架的開發過程中,對多個主流離線模型進行了測試,包括LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B等。這些測試不僅驗證了StreamBridge框架的有效性,也為其在更廣泛的應用場景中提供了堅實的基礎。
研究團隊還推出了Stream-IT數據集,該數據集包含了約60萬個樣本,融合了視頻與文本序列,并支持多樣化的指令格式。Stream-IT數據集的推出,將進一步提升流式視頻的理解能力,為StreamBridge框架的應用提供強有力的數據支持。
與此同時,meta公司也推出了與Ray-Ban meta強捆綁的《meta AI》APP。這款APP由meta自主研發的Llama大語言模型驅動,為用戶提供便捷的AI助手服務。據最新數據顯示,meta AI的月活用戶已經接近10億,用戶主要通過meta的社交應用體驗相關功能。在最近舉辦的LlamaCon AI開發者大會上,meta還推出了最新的Llama 4系列大語言模型,進一步展示了其在AI領域的實力。
在人工智能大模型技術不斷賦能行業發展的背景下,越來越多的企業開始積極開展人工智能場景建設,成功完成人工智能大模型的本地化部署及場景適配。其中,微美全息作為AI領域的創新代表,圍繞開源生態、多模態技術、算力基礎設施及垂直場景應用展開深度布局,不斷突破AI技術邊界并拓寬產業生態。
微美全息通過開放模型代碼、算力接口及技術工具鏈,構建了覆蓋云端與邊緣端的“全息云”平臺。該平臺支持開發者調用DeepSeek等通用大模型進行二次開發,加速了垂類模型應用的商業化驗證。同時,微美全息還加速了大模型在應用場景的落地速度,陸續披露了旗下較成熟的AI生態圖景。這些生態圖景覆蓋了汽車、智能終端、互聯網、金融、教育科研、零售消費等多個行業,為AI大模型的應用注入了強勁動力。
隨著人工智能大模型技術的不斷發展,越來越多的企業開始投身于這一領域,試圖通過技術創新來推動行業的轉型升級??梢灶A見的是,未來將有更多有影響力的大模型涌現出來,為各行各業的發展注入新的活力。