日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

大模型“套殼”爭(zhēng)議:自研與借力的邊界何在?

   時(shí)間:2025-07-16 21:06:36 來(lái)源:虎嗅APP編輯:快訊團(tuán)隊(duì) IP:北京 發(fā)表評(píng)論無(wú)障礙通道

在AI領(lǐng)域,一場(chǎng)關(guān)于“原研”與“套殼”的辯論再度升溫,這次爭(zhēng)議的焦點(diǎn)是華為盤古大模型與阿里云Qwen大模型之間的相似性。回溯至大模型興起的初期,套殼行為還主要停留在對(duì)ChatGPT的簡(jiǎn)單模仿階段,一些人通過(guò)調(diào)用ChatGPT的API,配以中文界面,就在微信等平臺(tái)上售賣會(huì)員服務(wù),從而踏上了AI領(lǐng)域的淘金之路。

然而,即便是那些致力于自主研發(fā)大模型的公司,也或多或少地從ChatGPT等模型中汲取靈感。雖然這些公司擁有自己的模型架構(gòu),但在微調(diào)階段,它們會(huì)利用ChatGPT或GPT-4等對(duì)話模型生成的數(shù)據(jù)來(lái)進(jìn)行優(yōu)化。這種做法既能保證數(shù)據(jù)的多樣性,又能獲取到經(jīng)過(guò)OpenAI精心對(duì)齊的高質(zhì)量數(shù)據(jù),已成為行業(yè)內(nèi)一個(gè)公開的秘密。

進(jìn)入2023年,大模型賽道迎來(lái)了開源時(shí)代,越來(lái)越多的創(chuàng)業(yè)團(tuán)隊(duì)選擇借助開源框架進(jìn)行模型訓(xùn)練。這一趨勢(shì)不僅促進(jìn)了技術(shù)的交流與迭代,也使得套殼開發(fā)變得更加普遍。隨著越來(lái)越多的團(tuán)隊(duì)公開自己的研究成果,爭(zhēng)議性的套殼事件也隨之增多,頻繁登上熱搜,隨后又往往被相關(guān)方澄清。

在AI的進(jìn)化歷程中,各類大模型都可以追溯到同一個(gè)鼻祖——2017年Google Brain團(tuán)隊(duì)發(fā)布的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)。而今天,在大型語(yǔ)言模型領(lǐng)域,Decoder-only(如GPT系列)、Encoder-Decoder(如T5)和Encoder-only(如BERT)三大主流Transformer架構(gòu)依然占據(jù)主導(dǎo)地位。其中,以Decoder-only為核心的GPT式架構(gòu)最受關(guān)注,并衍生出了多種變體。

2022年11月,OpenAI基于GPT 3.5推出了ChatGPT,短時(shí)間內(nèi)便吸引了數(shù)千萬(wàn)用戶,使大型語(yǔ)言模型(LLM)正式走進(jìn)公眾視野,也將GPT架構(gòu)推上了主流AI架構(gòu)的寶座。隨著ChatGPT打響大模型時(shí)代的第一槍,各大廠商紛紛涌入這一賽道。由于ChatGPT無(wú)法直接接入國(guó)內(nèi),一些小作坊看到了套殼牟利的機(jī)會(huì),一時(shí)間,各種山寨ChatGPT在互聯(lián)網(wǎng)上泛濫。

這些套殼行為最初往往不涉及任何二次開發(fā),開發(fā)者只是簡(jiǎn)單地對(duì)API進(jìn)行包裝并出售。然而,隨著監(jiān)管的加強(qiáng),這種低劣的套殼手段很快就被打擊。例如,“ChatGPT在線”公眾號(hào)因涉嫌仿冒ChatGPT被罰款6萬(wàn)元,成為首例“ChatGPT套殼”行政處罰案例。

盡管如此,套殼行為并未絕跡。在2023年發(fā)布的一些模型中,仍時(shí)常出現(xiàn)“GPT味”的回復(fù),引發(fā)套殼質(zhì)疑。例如,訊飛星火大模型曾因涉嫌套殼ChatGPT而引發(fā)關(guān)注。對(duì)此,一些企業(yè)解釋稱,這可能是由于訓(xùn)練數(shù)據(jù)中混入了大量ChatGPT生成的內(nèi)容,導(dǎo)致模型“身份混淆”。另一種可能是,模型研發(fā)團(tuán)隊(duì)在微調(diào)訓(xùn)練過(guò)程中主動(dòng)使用了通過(guò)ChatGPT等OpenAI旗下模型構(gòu)造的數(shù)據(jù)集,即所謂的“數(shù)據(jù)蒸餾”。

數(shù)據(jù)蒸餾是一種高效低成本的知識(shí)遷移方式,它用一個(gè)強(qiáng)大的“老師模型”生成大量高質(zhì)量問(wèn)答數(shù)據(jù),然后這些數(shù)據(jù)被用來(lái)訓(xùn)練一個(gè)“學(xué)生模型”。雖然借力ChatGPT/GPT-4生成訓(xùn)練數(shù)據(jù)是業(yè)內(nèi)公開的秘密,但直到字節(jié)跳動(dòng)被曝出利用微軟的OpenAI API賬戶生成數(shù)據(jù)來(lái)訓(xùn)練自己的模型后,這一行為才受到廣泛關(guān)注。雖然字節(jié)跳動(dòng)方面表示這是早期模型探索中的行為,并未計(jì)劃上線或?qū)ν馐褂茫@一事件仍然引發(fā)了關(guān)于套殼合規(guī)性的討論。

進(jìn)入開源時(shí)代后,套殼爭(zhēng)議再次升級(jí)。隨著meta開源LLaMA 2,AI行業(yè)正式進(jìn)入開源時(shí)代。隨后,先后有十余款國(guó)產(chǎn)模型通過(guò)微調(diào)LLaMA 2完成上線。然而,這也引發(fā)了關(guān)于利用開源模型架構(gòu)進(jìn)行二次開發(fā)是否構(gòu)成套殼的爭(zhēng)議。例如,百川智能CEO王小川曾回應(yīng)了外界對(duì)旗下開源模型Baichuan-7B套殼LLaMA的質(zhì)疑,強(qiáng)調(diào)他們?cè)诩夹g(shù)上有自己的思考。

另一場(chǎng)更洶涌的套殼風(fēng)波發(fā)生在2023年11月,原阿里技術(shù)副總裁、深度學(xué)習(xí)框架Caffe發(fā)明者賈揚(yáng)清在朋友圈中揭露了某家套殼模型的行為。事后證實(shí),該信息直指零一萬(wàn)物旗下的Yi-34B模型。這一事件引發(fā)了關(guān)于零一萬(wàn)物是否違反了LLaMA開源協(xié)議的激烈爭(zhēng)論。然而,Hugging Face工程師Arthur Zucker認(rèn)為,LLaMA的開源協(xié)議主要限制了模型權(quán)重,而不是模型架構(gòu),所以Yi-34B并未違反開源協(xié)議。

事實(shí)上,利用開源模型架構(gòu)只是打造新模型的第一步。零一萬(wàn)物在對(duì)Yi-34B訓(xùn)練過(guò)程的說(shuō)明中也作出了解釋:模型訓(xùn)練過(guò)程好比做菜,架構(gòu)只是決定了做菜的原材料和大致步驟,他們投注了大部分精力在訓(xùn)練方法、數(shù)據(jù)配比、數(shù)據(jù)工程、細(xì)節(jié)參數(shù)、訓(xùn)練過(guò)程監(jiān)測(cè)等方面的調(diào)整。

對(duì)于AI行業(yè)而言,推動(dòng)技術(shù)開源化的意義之一是停止“重復(fù)造輪子”。從零研發(fā)一款全新的模型架構(gòu)并跑通預(yù)訓(xùn)練流程需要耗費(fèi)大量成本。因此,頭部企業(yè)開源可以減少資源浪費(fèi),新入局的團(tuán)隊(duì)通過(guò)套殼得以快速投入到模型技術(shù)迭代和應(yīng)用場(chǎng)景中。百度CEO李彥宏就曾表示,重新做一個(gè)ChatGPT沒有多大意義,基于語(yǔ)言大模型開發(fā)應(yīng)用機(jī)會(huì)很大,但沒有必要再重新發(fā)明一遍輪子。

然而,隨著開源時(shí)代的到來(lái),模型開發(fā)門檻不斷降低,在迎來(lái)百模齊放的良好生態(tài)之余,也浮現(xiàn)出一些惡劣的套殼行為。例如,2024年5月,斯坦福大學(xué)的一個(gè)研究團(tuán)隊(duì)發(fā)布了一個(gè)名為L(zhǎng)LaMA3V的模型,但隨后有網(wǎng)友發(fā)現(xiàn)該模型與中國(guó)企業(yè)面壁智能發(fā)布的8B多模態(tài)開源小模型MiniCPM-LLaMA3-V 2.59高度重合。在實(shí)錘套殼抄襲后,該團(tuán)隊(duì)刪庫(kù)跑路。這一事件不僅反映出國(guó)產(chǎn)模型憑借其優(yōu)異性能也成為了被套殼的對(duì)象,也再次引發(fā)了業(yè)界對(duì)開源時(shí)代套殼合規(guī)邊界的思考。

對(duì)于套殼的道德邊界問(wèn)題,業(yè)內(nèi)存在不同看法。一些人認(rèn)為,如果一個(gè)團(tuán)隊(duì)沒有以原生模型的名義發(fā)表就不能叫套殼,應(yīng)該叫模型的再應(yīng)用。而另一些人則認(rèn)為套殼合規(guī)與否在于冠名問(wèn)題,利用開源技術(shù)就需要在技術(shù)文檔中做出明確說(shuō)明。同時(shí),法律界人士也表示,目前這一類事情還處于一個(gè)灰色地帶,如何區(qū)分套殼和抄襲的界限、如何證明因?yàn)樘讱ば袨閷?dǎo)致了不當(dāng)獲利等問(wèn)題都存在著一定的舉證難度。

盡管如此,套殼行為在AI領(lǐng)域依然普遍存在。一些頭部企業(yè)雖然在其他領(lǐng)域?qū)嵙π酆瘢谀P皖I(lǐng)域可能缺少底層的訓(xùn)練邏輯和經(jīng)驗(yàn)積累。對(duì)這些企業(yè)而言,充分利用開源技術(shù)套殼可以更快完成從數(shù)據(jù)層面到模型層面的積淀。然而,這也引發(fā)了一些關(guān)于套殼和自研取舍的討論。一些算法從業(yè)者表示,在保留技術(shù)底線基礎(chǔ)上能有成果產(chǎn)出是最重要的。

總體而言,開源為AI行業(yè)帶來(lái)了積極影響,促進(jìn)了技術(shù)的交流與迭代。然而,套殼爭(zhēng)議也伴隨著這一趨勢(shì)而不斷升級(jí)。對(duì)于從業(yè)者而言,用開源技術(shù)并不丟人,但重要的是要在技術(shù)文檔中做出明確說(shuō)明并避免宣傳為自研。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 金川县| 双辽市| 谢通门县| 祥云县| 隆昌县| 甘洛县| 海丰县| 合水县| 腾冲县| 四会市| 平远县| 宁城县| 苏尼特右旗| 偃师市| 南康市| 晋宁县| 哈巴河县| 凤凰县| 大安市| 柯坪县| 白银市| 阜新市| 高雄县| 密云县| 双流县| 海口市| 湟源县| 崇左市| 华坪县| 苗栗市| 紫阳县| 佛山市| 察雅县| 龙岩市| 锡林浩特市| 文水县| 娱乐| 德保县| 饶阳县| 固原市| 保亭|