在當今信息爆炸的時代,如何從海量數據中快速定位所需內容,已成為各類應用的核心挑戰。無論是搜索引擎的網頁推薦、電商平臺的商品篩選,還是大型語言模型的知識檢索,都依賴一項關鍵技術——向量相似性搜索。近日,一支由浙江大學學者領銜,聯合新加坡Shopee公司、阿里巴巴云計算及南洋理工大學研究人員組成的國際團隊,針對該技術提出全新評估框架,并開發出實用決策工具,相關成果計劃在2026年ACM SIGMOD國際數據管理大會上發布,論文預印本已公開于arXiv平臺。
研究團隊通過系統分析發現,現有評估向量搜索系統的方法存在根本性缺陷。傳統指標如同僅用跑步速度衡量運動員表現,卻忽視其是否跑向正確方向——某些系統在技術參數上表現優異,實際應用中卻南轅北轍。例如在圖像分類任務中,部分算法的合成召回率可達99.9%,但實際標簽召回率不足1%,意味著返回的100個結果中,99個以上屬于錯誤類別。這種“虛假繁榮”現象,暴露出評估體系與真實需求之間的嚴重脫節。
為破解這一難題,團隊提出“信息損失漏斗”理論框架。該模型將數據從原始形態到應用結果的轉化過程,類比為倒置的漏斗,信息在三個關鍵環節發生不可逆流失:首先是嵌入編碼階段,復雜數據被壓縮為數字向量時,細節信息必然丟失,且不同模型保留的信息類型存在差異;其次是度量標準誤用,許多系統盲目采用歐幾里得距離或內積相似度,卻未考慮其與訓練目標的匹配性,導致“高分低能”;最后是數據分布敏感性,不同算法對數據特征的適應性不同,如同交通工具需匹配路況,錯誤選擇會導致性能驟降。
為驗證理論,研究團隊構建了覆蓋100萬至1億向量的八大數據集,涵蓋圖像分類、人臉識別、文本檢索和電商推薦四大領域。實驗結果顯示,不同嵌入模型對結果影響顯著:在ImageNet數據集上,DINOv2模型的標簽召回率僅71%,而EVA02和ConvNeXt分別達到85%和84%,十年前的AlexNet模型更是低至21%。度量標準的選擇同樣關鍵,在文本檢索中,歐幾里得距離的表現普遍優于內積相似度,與人臉識別領域形成鮮明對比。這些發現表明,不存在“萬能算法”,技術選擇需深度匹配數據特征與應用需求。
針對技術選型難題,團隊開發出基于決策樹的實用工具。該工具通過四個核心元特征進行兩層判斷:第一層依據戴維斯-布爾丁指數和變異系數,確定相似度度量方法;第二層通過相對角度和相對對比度,推薦具體搜索算法。例如,當數據滿足“歐幾里得戴維斯-布爾丁指數≥余弦值,且變異系數≤0.1”時,系統推薦內積相似度;若相對角度≥60度或相對對比度≤1.5,則建議采用分割式方法。在人臉識別數據集上,該工具推薦的ScaNN算法,相比圖基方法實現3倍速度提升;在文本檢索中,推薦的HNSW算法,性能優勢達3.2倍。交叉驗證顯示,工具在未見數據集上的推薦準確率仍保持85%以上。
當研究團隊以任務導向標準重新評估搜索方法時,傳統榜單發生顛覆性變化。在圖像分類中,圖基方法HNSW雖在合成指標上領先,但分割式方法RaBitQ在標簽召回率上表現更優;推薦系統領域,傳統“冠軍”VAMANA在平衡相關性、熱度和用戶偏好時力不從心,而ip-NSW+成為實際贏家;人臉識別中,分割式方法ScaNN憑借對噪聲和邊界情況的更好處理,超越圖基方法。這些案例表明,技術設計需從“應試教育”轉向“素質教育”,兼顧指標優化與實際效果。
基于研究結論,團隊提出三大發展方向:任務感知型搜索將下游目標融入搜索過程,打破傳統兩階段割裂;度量感知型系統支持多種相似度標準,根據數據特征動態選擇;分布感知型方法自動適應數據變化,如電商推薦中用戶興趣的動態遷移。這些方向需學術界與產業界協同推進,學術突破提供理論支撐,產業場景驗證技術實效。
該研究的影響遠超學術范疇。對產業界而言,全球數萬家部署向量搜索的企業,若依據發現優化系統,將帶來效率提升與成本節約的雙重效益,用戶搜索結果的相關性、推薦內容的精準度將顯著改善。學術層面,研究不僅暴露現有評估體系的缺陷,更推動研究重心向實用化、智能化轉移。決策樹工具的開源,將加速科研創新,幫助更多團隊快速定位問題。從社會層面看,更智能的搜索技術有助于打破信息繭房,促進知識開放共享,在信息過載時代提升公眾的信息獲取效率。
研究團隊同時指出當前工作的局限性:決策樹工具的泛化能力需在更多場景中驗證,嵌入模型與應用需求的快速發展可能要求定期更新閾值策略,對馬哈拉諾比斯距離等特殊度量的適用性仍需探索。盡管如此,這項研究已為向量搜索技術開辟新路徑,其核心啟示——以用戶需求為導向、以實際效果為準繩——將為其他技術領域提供有益借鑒。











