近期,全球就業市場正經歷一場前所未有的震蕩,多家科技巨頭相繼公布的裁員計劃引發廣泛關注。據統計,被削減的崗位總數高達17萬,其中亞馬遜作為美國第二大雇主,通過內部郵件宣布一次性裁撤1.4萬個崗位,而這場裁員潮的背后,AI技術的快速發展被視為主要推手。
在就業競爭愈發激烈的背景下,12萬名美國大學畢業生爭搶1.7萬個崗位的現象凸顯了就業市場的嚴峻性。數據顯示,每七個求職者中僅有一人能獲得工作機會,而白領階層成為受沖擊最嚴重的群體之一。與此同時,關于AI取代人類工作的擔憂甚囂塵上,但最新研究給出了截然不同的結論。
由Scale AI和Center for AI Safety聯合開展的研究顯示,盡管AI技術在實驗室測試中表現亮眼,但在真實工作場景中的自動化率不足3%。研究團隊提出的遠程勞動指數(RLI)基準,通過收錄來自游戲開發、建筑設計、數據分析等領域的真實項目,揭示了AI與人類工作能力的現實差距。這些項目平均耗時超過100小時,部分成本高達1萬美元,總計涵蓋6000小時的真實工作量。
研究過程中,358名擁有Upwork認證的自由職業者參與了數據收集,他們平均完成89個項目,總收入達2.3萬美元。經過嚴格篩選,最終形成的240個項目數據集顯示,AI在執行復雜任務時仍存在顯著局限。例如,在建筑設計和網頁開發等需要跨領域協作的場景中,AI常因無法驗證交互效果或修正錯誤而導致交付成果不合格。
在定量評估中,全球六大頂尖AI模型的表現令人意外。即便是表現最佳的Manus模型,自動化率也僅為2.5%。研究人員通過配對比較法計算的Elo評分顯示,新一代模型雖相對舊模型有所提升,但絕對性能仍遠低于人類水平。定性分析則進一步指出,AI交付成果被拒的主要原因包括技術缺陷、內容不完整、質量不達標以及跨文件不一致等問題。
值得注意的是,AI在特定領域展現出超越人類的能力。在音頻處理、圖像生成等創意任務中,部分模型交付的成果可與專業人類工作者媲美。例如,Claude 4.5 Sonnet在簡單網頁可視化任務中的表現優于人類,AI生成的營銷素材也成功解決了部分實際問題。然而,這些成功案例多集中于AI技能發展較成熟的領域,而在需要復雜交互驗證的場景中,AI仍無法替代人類。
研究團隊強調,當前AI系統的局限性主要源于世界知識不足和錯誤修正能力缺失。在涉及多步驟、長周期的真實工作中,AI既無法像人類一樣通過經驗積累改進,也難以在出現偏差時及時調整。這種缺陷在需要嚴格標準控制的領域尤為明顯,例如生成損壞文件、提交不完整素材等問題頻繁出現。
盡管AI技術發展迅速,但真實勞動力市場的需求遠比實驗室測試復雜。既有基準測試多聚焦于短任務、明確規則的學術場景,而RLI基準通過還原自由職業市場的實際工作形態,為評估AI經濟價值提供了更可靠的參照。數據顯示,人類完成RLI項目的平均耗時與Upwork平臺真實數據高度吻合,而傳統基準測試覆蓋的工種范圍遠不及實際市場廣泛。











