近期,編程大模型領域的競爭格局再度發(fā)生劇變,DeepSeek-R1憑借其非凡的編程實力,成功問鼎網頁編程領域的王座,將昔日的“全球編碼霸主”Claude Opus4擠下神壇。此番升級雖看似微調,但DeepSeek-R1在LiveCodeBench上的卓越表現,已與OpenAI的o3-high并駕齊驅,引起了網絡上的廣泛熱議。
為了深入探究DeepSeek-R1的真實實力,我們進行了一系列實戰(zhàn)測試。首先,我們向它提出了制作一個太陽系動畫應用程序的挑戰(zhàn)。令人驚嘆的是,DeepSeek-R1僅在49秒的沉思后,便輸出了一段Python代碼。通過VS Code的運行,一個雖略顯簡陋但動畫效果俱全的太陽系動畫躍然屏上。隨后,我們進一步要求使用Three.js技術來模擬太陽系,DeepSeek-R1僅用34秒便厘清了設計思路,并一鍵生成了令人眼前一亮的高級動畫效果。
緊接著,我們向DeepSeek-R1發(fā)起了另一個挑戰(zhàn)——創(chuàng)建一個以通用人工智能(AGI)為主題的網頁。在短短23秒的思考后,它迅速給出了包含“知識共享”、“社區(qū)互動”和“未來創(chuàng)新”三大板塊的HTML代碼,且同樣具備一鍵部署的功能。網頁的整體設計既現代又充滿科技感,生動展現了AGI的創(chuàng)新精神與魅力。
然而,在嘗試讓DeepSeek-R1開發(fā)一款俄羅斯方塊游戲的任務中,它遭遇了不小的挑戰(zhàn)。盡管在12秒內迅速輸出了Python代碼,但游戲中存在明顯的漏洞,缺失了關鍵的交互按鈕。盡管我們進行了多次嘗試和改進,但游戲的表現依然未能達到預期。
作為一款開源模型,DeepSeek-R1在編程領域所展現出的進步無疑令人矚目。然而,它也仍有提升空間。相較于Claude模型,DeepSeek-R1對國內用戶更加友好,不僅免費且易于獲取。它還榮獲了當前最佳開源文本模型的殊榮,位列總榜第六,在多個細分領域均有著出色的表現。