在金融科技領域,隨著“人工智能+”戰略的深入實施,大型模型技術正逐步在金融行業中扎根生長。為了衡量這些大型模型在金融場景下的專業性和可靠性,上海財經大學近期對其金融領域大模型評估基準進行了升級,推出了Fineval 6.0版本,并首次引入了金融嚴謹性等新的評估維度,同時發布了首份詳細的評測報告。
作為國內金融領域大模型測評的先行者,上海財經大學早在2024年就參與了《金融大模型應用測評指南》的制定工作,該指南是全國首個聚焦于金融業務能力的團體標準。此次升級,Fineval 6.0基于廣泛的行業調研和投資者反饋,特別強化了金融嚴謹性的評測樣本,從金融學術知識、行業理解、嚴謹性測試、安全認知以及智能體應用等多個方面,對大型模型在復雜金融場景中的實際應用能力進行了全面評估。
在Fineval 6.0的評測中,國內外共9款具有代表性的大型模型接受了考驗,包括DeepSeek-R1、GPT-4等通用基礎模型,以及專注于金融領域的垂直模型。評測結果顯示,雖然所有模型在金融學術知識方面均表現出色,但在金融嚴謹性和行業理解等關鍵能力上,各模型之間的差異顯著。螞蟻集團旗下的理財AI“螞小財”憑借其強大的模型底座,在金融嚴謹性等多個維度上脫穎而出,總分超越了多款通用大模型。
特別是金融嚴謹性這一維度,行業平均得分僅為70.27分,而“螞小財”則以高出均值17分的優異成績遙遙領先。作為螞蟻集團旗下的AI理財助手,“螞小財”不僅連接了螞蟻財富平臺上的200多家基金公司、券商和財經媒體的內容與服務,還在通用大模型的基礎上,構建了金融智能增強技術體系,顯著提升了金融場景下的專業功能和交互體驗。
上海財經大學教授張立文作為測評團隊的負責人指出,金融領域是AI技術應用的重要場景之一,對AI的專業性和嚴謹性提出了更高要求。近年來,國內AI在金融領域的應用水平不斷提升,逐漸從“博學多才”向“專業審慎”轉變,為下一階段的大規模應用奠定了堅實基礎。這些積極的探索不僅有助于提升我國在國際AI產業競爭中的地位,還將為數字金融和普惠金融的發展開辟新篇章。