近日,科技界掀起了一場關于meta公司最新發布的大語言模型Llama 4的風波。Llama 4系列,包括Scout與Maverick兩個版本,本應成為meta在人工智能領域的又一力作,然而,一則指控其模型訓練過程中存在作弊行為的爆料,迅速在網絡上發酵。
在一則發布于海外知名留學求職論壇“一畝三分地”的帖子中,一位自稱參與Llama 4訓練的內部員工揭露了驚人內幕。據該員工透露,Llama 4的內部測試表現始終未能達到業界開源的頂尖水平(SOTA)基準。面對這一困境,公司領導層竟決定采取非常手段,即在訓練的后期階段,將用于評估模型性能的基準測試“測試集”數據,悄悄混入了訓練或微調的數據集中,以期在最終的性能測試中交出一份光鮮亮麗的成績單。
這一爆料迅速引起了科技界的廣泛關注。知名科技媒體TechCrunch也發表文章,對Llama 4的性能測試提出了質疑,認為其可能存在誤導性。文章指出,如果meta確實在測試集上進行了預訓練,那么Llama 4所展示的性能數據將大打折扣,其真實能力遠未達到宣傳所宣稱的高度。
面對輿論的洶涌波濤,meta AI部門的副總裁Ahmad Al-Dahle于4月8日凌晨緊急發表聲明進行回應。他在聲明中強調,Llama 4的發布是基于其準備就緒的原則,因此,在不同服務中模型的質量存在差異是在所難免的。meta正在積極努力修復這些漏洞,并承諾將盡快提升模型性能。同時,他堅決否認了meta在測試集上進行預訓練的說法,表示meta始終秉持誠信原則,致力于推動人工智能技術的健康發展。
然而,盡管meta方面已經做出了回應,但這場風波的影響似乎并未就此平息。許多業內人士和網友對meta的解釋持懷疑態度,認為其未能充分證明Llama 4的性能數據真實無誤。這場關于Llama 4的爭議,無疑給meta的人工智能戰略蒙上了一層陰影,也再次引發了人們對于人工智能技術評估體系透明度和公正性的深思。
隨著事件的進一步發展,人們期待著meta能夠拿出更有力的證據來證明自己的清白,同時也希望整個科技界能夠以此為契機,加強對于人工智能技術評估體系的監管和完善,確保人工智能技術的健康、可持續發展。