近期,AI領域迎來新進展,DeepSeek公司發布了其R1推理AI模型的最新升級版。該版本在多個數學及編程領域的基準測試中表現搶眼,引發了廣泛關注。然而,圍繞其訓練數據源的謎團,卻讓部分AI研究人員心生疑慮。
據悉,有開發者發現DeepSeek的R1-0528模型在表達風格上與Google的Gemini AI系列存在諸多相似之處。墨爾本的開發者Sam Paeach指出,從用詞到句式,兩者間有著難以忽視的一致性。更令人矚目的是,匿名SpeechMap項目創始人也透露,DeepSeek模型在推理時展現出的“思考路徑”與Gemini驚人地相似,這進一步加劇了業界對于DeepSeek訓練數據源的猜測。
事實上,這并非DeepSeek首次陷入此類爭議。去年12月,其V3模型因頻繁誤認自己為OpenAI的ChatGPT而飽受批評,這一行為讓人懷疑其是否利用了ChatGPT的聊天記錄進行訓練。今年早些時候,OpenAI公開表示,已發現DeepSeek涉嫌使用“數據蒸餾”技術的證據。據彭博社報道,微軟在2024年底察覺到,一些通過OpenAI開發者賬戶泄露的數據可能與DeepSeek有關。
盡管“數據蒸餾”在AI界并不鮮見,但OpenAI對此有著嚴格的限制,禁止用戶利用模型輸出開發競品。然而,在開放網絡環境中,由于大量低質量內容的存在,AI模型間相互模仿用詞和措辭的現象并不罕見,這無疑為追蹤真實訓練數據增添了難度。
對此,人工智能專家Nathan Lambert表示,DeepSeek使用Google Gemini數據進行訓練的可能性并非空穴來風。他指出,DeepSeek資金雄厚,完全有能力利用市面上最先進的API模型生成合成數據。為了應對數據提煉帶來的風險,AI公司們正不斷強化安全措施。OpenAI已要求組織在完成身份驗證后才能訪問高級模型,而Google也在提升其AI Studio平臺的安全性,限制對模型內部運行軌跡的訪問權限。