WAVES新浪潮2025大會在杭州良渚文化藝術中心隆重舉行,此次盛會以“新紀元”為主題,匯聚了創投領域的眾多精英,共同探索中國創投市場的新篇章。大會期間,創投領域的頂級投資人、新銳企業創始人以及科技、創新、商業界的學者與創作者齊聚一堂,就AI技術革新、全球化浪潮與價值重估等前沿議題展開了深入探討。
6月12日上午,紅杉中國的投資人公元在創業者會場發表了一場引人深思的獨立演講,主題為“AI下半場:如何定義‘好問題’?”。公元的演講圍繞紅杉中國最新推出的xbench基準測試展開,分享了背后的思考與探索。
公元首先展示了兩組圖表,揭示了AI上半場的一個顯著問題:每當新的數據集和測試標準出現,大模型總能迅速達到頂尖水平(SOTA),隨后便會有新的基準測試推出,再次促使大模型達到SOTA,形成了一個無限循環。這種趨勢引發了深刻思考:當大模型都考滿分時,是模型真正變聰明了,還是測試標準本身存在問題?
公元回顧了紅杉中國在過去兩年多時間里,對基準測試的三次迭代過程。從ChatGPT初現端倪時,紅杉便意識到大模型可能是十年一遇的大浪潮,因此著手建立內部標準和工具,以實時觀測模型發展,更好地指導投資。最初的基準測試包含簡單的邏輯題和數學題,但很快就被大模型輕松破解。隨著OpenAI等模型的進步,紅杉不斷升級測試難度,但大模型依然能夠迅速適應,這促使紅杉開始反思測試標準的有效性。
在第三次迭代時,紅杉開始深入探索如何在AI下半場提出“好問題”。公元指出,過去的研究者往往陷入了一種慣性思維,即不斷提高問題難度以測試模型能力。然而,這種慣性思維真的正確嗎?模型越來越聰明,真的等同于具備投資價值嗎?紅杉開始反思模型能力與經濟效用之間的關系,并致力于建立一套既能評估模型智能水平,又能評估其經濟效用的標準。
公元進一步闡述了紅杉在第三次迭代中的思考方向。他提到,AI模型的能力可以分為兩部分:一部分是AGI track,評估模型的通用智能水平;另一部分是Profession-aligned track,評估模型在現實世界中的經濟效用。例如,在search能力上,AGI track可能關注模型在復雜搜索任務上的表現,而Profession-aligned track則關注模型在獵頭、市場運營等具體職業崗位上的應用效果。
紅杉還致力于建立一套長青的評價體系,以解決不同時間維度和不同數據集上模型能力的比較問題。公元介紹了紅杉采用IRT方法進行的數學建模和回歸測試,通過調整分數曲線,使其能夠真實反映模型能力的單調遞增趨勢。這一體系對于評估模型和Agent的長期發展具有重要意義。
在演講的最后部分,公元提出了TMF(Technology-Match-Future)的概念,強調在評估模型和Agent能力時,需要關注其無限逼近人的能力,并根據能力發展階段判斷投資拐點和切入賽道的時機。他展示了xbench第一期的評估結果,并呼吁社區共建一套Agent的評估標準,以促進整個行業的發展。
公元的演講引發了與會者的熱烈討論和思考,為WAVES新浪潮2025大會增添了一抹亮色。此次大會不僅是中國創投市場新紀元的起點,更是AI技術革新與價值重估的重要里程碑。