日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

龐若鳴交班陳智峰,蘋果發(fā)布2025基礎(chǔ)模型技術(shù)報(bào)告

   時(shí)間:2025-07-18 18:29:52 來(lái)源:機(jī)器之心Pro編輯:快訊團(tuán)隊(duì) IP:北京 發(fā)表評(píng)論無(wú)障礙通道

機(jī)器之心報(bào)道

編輯:澤南

Apple Intelligence 進(jìn)入新的一章。

近日,蘋果發(fā)布了 2025 年 Apple Intelligence 基礎(chǔ)語(yǔ)言模型技術(shù)報(bào)告。

剛剛加入 meta 的前蘋果 AI 負(fù)責(zé)人龐若鳴(Ruoming Pang)發(fā)出多條推文進(jìn)行了介紹。

在報(bào)告中,蘋果詳細(xì)介紹了訓(xùn)練新一代模型所用的數(shù)據(jù)、模型架構(gòu)、訓(xùn)練方案、優(yōu)化推理技術(shù)手段,以及與同類模型對(duì)比的評(píng)估結(jié)果。文中重點(diǎn)展示了蘋果如何在提升用戶價(jià)值的同時(shí)實(shí)現(xiàn)功能擴(kuò)展與質(zhì)量?jī)?yōu)化,并大幅提高設(shè)備端和私有云計(jì)算的運(yùn)行效率。

報(bào)告鏈接:https://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025

這次蘋果介紹了兩種多語(yǔ)言、多模態(tài)基礎(chǔ)語(yǔ)言模型,可為蘋果設(shè)備和服務(wù)中的 Apple Intelligence 功能提供支持。其中包括:

1)通過(guò) KV 緩存共享和 2 位量化感知訓(xùn)練等架構(gòu)創(chuàng)新,針對(duì)蘋果自有芯片進(jìn)行了優(yōu)化的 3B 參數(shù)設(shè)備模型;2)一種可擴(kuò)展的云端模型,它結(jié)合了新型并行軌道混合專家 (PT-MoE) Transformer 和交錯(cuò)的全局 - 局部注意力,以便在蘋果的私有云計(jì)算平臺(tái)上進(jìn)行有效推理。

這兩款模型均通過(guò)負(fù)責(zé)任的網(wǎng)絡(luò)爬取、授權(quán)語(yǔ)料庫(kù)和高質(zhì)量合成數(shù)據(jù)集進(jìn)行大規(guī)模多語(yǔ)言、多模態(tài)訓(xùn)練,并在新的異步平臺(tái)上通過(guò)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化。最終模型不僅支持多種新增語(yǔ)言,還能理解圖像并執(zhí)行工具調(diào)用。

PT-MoE 架構(gòu)示意圖。每個(gè)軌跡 track 由多個(gè)軌跡塊組成,每個(gè)軌跡塊包含固定數(shù)量的 Transformer/MoE 層。假設(shè)總層數(shù)為 L 層且軌跡塊深度為 D,則同步開(kāi)銷可從 2L(張量并行)降低至 L/D(軌跡并行)。例如當(dāng) D = 4 時(shí),PT 架構(gòu)可將同步開(kāi)銷減少 87.5%。

PT Transformer是蘋果研究人員提出的一種新型架構(gòu)。與僅包含單一順序?qū)佣褩5臉?biāo)準(zhǔn)解碼器式 Transformer 不同,該架構(gòu)將模型劃分為多個(gè)小型 Transformer 模塊,稱為軌道。每個(gè)軌道由多個(gè)堆疊的軌道塊組成,每個(gè)軌道塊本身都是一個(gè) Transformer 層堆棧。這些軌道塊獨(dú)立處理標(biāo)記數(shù)據(jù),僅在軌道塊的輸入輸出邊界進(jìn)行跨軌道同步。這種隔離設(shè)計(jì)不僅實(shí)現(xiàn)了軌道間的直接并行執(zhí)行,還有效降低了傳統(tǒng) Transformer 解碼器(如采用張量并行技術(shù)的模型)中常見(jiàn)的同步開(kāi)銷。這種方法被稱為軌跡并行,改進(jìn)了訓(xùn)練和推理的延遲,而不會(huì)影響模型的質(zhì)量。

為實(shí)現(xiàn)服務(wù)器端模型的進(jìn)一步擴(kuò)展,蘋果在每個(gè)軌道塊內(nèi)部引入了專家混合層(MoE),從而構(gòu)建出 PT-MoE 架構(gòu)。由于各 MoE 層中的專家模塊僅在對(duì)應(yīng)軌道內(nèi)運(yùn)行,通信開(kāi)銷可與計(jì)算過(guò)程有效重疊,從而提升訓(xùn)練效率。結(jié)合軌道并行性帶來(lái)的軌道級(jí)獨(dú)立性優(yōu)勢(shì),這種設(shè)計(jì)使模型在保持低延遲的同時(shí)實(shí)現(xiàn)高效擴(kuò)展 —— 得益于稀疏度的提升,模型運(yùn)行更加輕量化。

另外為了實(shí)現(xiàn)現(xiàn)視覺(jué)理解能力,蘋果引入了一個(gè)可以從輸入圖像中提取視覺(jué)特征的視覺(jué)編碼器,在大量圖像數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練,以提高其性能。視覺(jué)編碼器包含兩個(gè)關(guān)鍵組件:一個(gè)視覺(jué)主干,用于從輸入圖像中提取豐富的視覺(jué)表征;以及一個(gè)視覺(jué)語(yǔ)言適應(yīng)模塊,用于壓縮視覺(jué)表征并將這些視覺(jué)特征與模型的標(biāo)記表征進(jìn)行對(duì)齊。

在視覺(jué)主干網(wǎng)絡(luò)中,蘋果采用了標(biāo)準(zhǔn)的視覺(jué) Transformer(ViT-g),服務(wù)器模型為 10 億參數(shù);以及更高效的 ViTDet-L 主干網(wǎng)絡(luò),設(shè)備端模型為 3 億參數(shù)。

設(shè)備端視覺(jué)主干網(wǎng)絡(luò)采用了 ViTDet 架構(gòu),該架構(gòu)在大多數(shù)視覺(jué) Transformer 層中使用窗口注意力機(jī)制,僅包含三個(gè)跨窗口全局注意力層。為更有效地捕捉并整合細(xì)粒度局部細(xì)節(jié)與宏觀全局上下文信息,蘋果在標(biāo)準(zhǔn) ViTDet 基礎(chǔ)上創(chuàng)新性地引入了注冊(cè)窗口(RW)機(jī)制。該機(jī)制通過(guò)讓全局注冊(cè)表(或類別)標(biāo)記在參與整體全局上下文聚合前,先與圖像中的不同局部窗口進(jìn)行交互,從而實(shí)現(xiàn)對(duì)全局特征的編碼。

蘋果認(rèn)為,端側(cè)和云端模型配合可以滿足廣泛的性能和部署需求。設(shè)備端模型經(jīng)過(guò)優(yōu)化,能夠以最低資源消耗實(shí)現(xiàn)低延遲推理;而服務(wù)器端模型則專為復(fù)雜任務(wù)設(shè)計(jì),提供了高精度和可擴(kuò)展性。

在人工評(píng)估基準(zhǔn)中,蘋果的模型在跨語(yǔ)言、文本和視覺(jué)模式上都具有不錯(cuò)的競(jìng)爭(zhēng)力,甚至優(yōu)于同等規(guī)模的最佳開(kāi)源模型。

在技術(shù)報(bào)告中,蘋果還介紹了全新推出的 Swift 核心的基礎(chǔ)模型框架,其中集成了引導(dǎo)式生成、約束式工具調(diào)用和 LoRA 適配器微調(diào)三大功能模塊,開(kāi)發(fā)者僅需幾行代碼即可輕松實(shí)現(xiàn)這些功能的集成。

該框架讓開(kāi)發(fā)者能夠借助約 30 億參數(shù)的設(shè)備端語(yǔ)言模型,著手打造可靠且具備量產(chǎn)級(jí)品質(zhì)的生成式 AI 功能。作為 Apple Intelligence 的核心,它在摘要、實(shí)體提取、文本理解、優(yōu)化、簡(jiǎn)短對(duì)話、創(chuàng)意內(nèi)容生成等多樣化文本任務(wù)中表現(xiàn)卓越。不過(guò)蘋果表示,雖然已針對(duì)設(shè)備端模型進(jìn)行了專門優(yōu)化,但它并非為通用知識(shí)問(wèn)答而設(shè)計(jì)。蘋果鼓勵(lì)應(yīng)用開(kāi)發(fā)者利用該框架為 APP 定制實(shí)用功能。

蘋果表示,Apple Intelligence 模型的最新進(jìn)展始終遵循「負(fù)責(zé)任的人工智能」的理念,通過(guò)內(nèi)容過(guò)濾、地區(qū)定制評(píng)估等安全防護(hù)措施,并依托私有云計(jì)算等創(chuàng)新技術(shù),切實(shí)保障用戶隱私安全。

在技術(shù)報(bào)告發(fā)布之后,龐若鳴不忘感謝了所有貢獻(xiàn)者,其中包括模型、后訓(xùn)練、多模態(tài)、框架 / API、項(xiàng)目管理人員,同時(shí)把接力棒交給了蘋果 AI 的下一任負(fù)責(zé)人 Zhifeng Chen 和 Mengyu Li。

此前據(jù)媒體報(bào)道,龐若鳴加入 meta 后,蘋果大模型團(tuán)隊(duì)將由陳智峰(Zhifeng Chen)負(fù)責(zé),不過(guò)團(tuán)隊(duì)的管理架構(gòu)將更加分散。

陳智峰 2000 年本科畢業(yè)于復(fù)旦大學(xué),后于普林斯頓大學(xué)、伊利諾伊大學(xué)香檳分校獲得碩士、博士學(xué)位。在加入蘋果之前,陳智峰曾在谷歌長(zhǎng)期工作,參與過(guò) TensorFlow、Gemini、神經(jīng)機(jī)器翻譯系統(tǒng)、Palm 2 等重要研究。他和龐若鳴、吳永輝均是Google Brain 早期的重要成員。

參考內(nèi)容:

https://www.bloomberg.com/news/articles/2025-07-07/apple-loses-its-top-ai-models-executive-to-meta-s-hiring-spree

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 深圳市| 井冈山市| 涿州市| 普定县| 容城县| 霍林郭勒市| 津南区| 桃园市| 怀远县| 襄垣县| 夹江县| 金堂县| 从化市| 定襄县| 南宫市| 苏尼特右旗| 广水市| 九龙坡区| 成安县| 高州市| 嘉善县| 汽车| 巴林左旗| 胶南市| 进贤县| 顺平县| 罗田县| 玉树县| 周口市| 福安市| 南康市| 承德市| 四川省| 乡城县| 宣恩县| 广东省| 夏津县| 五寨县| 句容市| 灵寿县| 泰和县|