在QCon全球軟件開發大會(北京站)上,焱融科技CTO張文濤分享了高性能全閃并行文件系統YRCloudFile的設計與實踐,深入探討了AI訓練場景中的存儲挑戰與解決方案。張文濤指出,深度學習領域中,數據與算力是模型訓練的核心要素,但數據規模和模型復雜度的快速增長導致存儲性能成為制約訓練效率的關鍵瓶頸。
張文濤通過meta的存儲增長數據和某大客戶的實際案例,揭示了AI時代存儲需求的爆發式增長。他提到,2022年ChatGPT發布后,國內大模型廠商的數據量年均增速從20T躍升至60T,存儲容量與性能需求同步激增。AI全流程中,數據采集、處理、訓練、推理和歸檔各環節均面臨不同挑戰,其中訓練環節對存儲性能的要求最為嚴苛。
針對AI訓練場景,YRCloudFile通過多項技術創新解決了高并發、海量小文件、帶寬峰值等核心問題。系統采用靜態數據路由算法,在文件創建時即確定存儲位置,避免訪問時的元數據查詢開銷,同時利用多磁盤并行提升帶寬利用率。Multi-Channel技術通過網卡聚合突破單網卡帶寬限制,NUMA親和性優化避免跨節點內存訪問,RDMA單邊編程模式減少內存拷貝,共同將單節點吞吐量提升至480GB/s。
在海量小文件處理方面,YRCloudFile采用基于Dentry Hash的元數據分布策略,通過根目錄固定、子目錄哈希選擇和本地性優化,確保元數據操作均勻分布且具備高效預取能力。測試數據顯示,YRCloudFile在1億至100億文件規模下,元數據OPS性能穩定,遠超開源CephFS的衰減表現。同時,系統通過弱化POSIX語義、異步close操作等技術,將小文件訪問性能提升10倍以上。
為滿足大規模集群需求,YRCloudFile設計了匯聚式心跳上報機制和UDP推拉結合的事件同步方案,支持200余個全閃節點和10萬個客戶端的擴展能力。智能數據分層功能通過時間和大小策略,自動將冷數據下沉至對象存儲,同時保持業務透明無感。在AI訓練中,數據預熱功能確保GPU快速訪問熱點數據,避免冷啟動延遲。
在運維層面,YRCloudFile提供多租戶管理、訪問權限控制、日志審計和回收站等安全特性,支持彈性數據網絡打通多網絡平面。針對單流業務,系統通過緩存預取優化性能;針對小模型訓練,設置Cache HardLimit避免延遲抖動;針對IB網絡擁塞,實施客戶端限速保障整體吞吐量。
張文濤還介紹了YRCloudFile在推理場景的優化方案。系統為KVCache提供PB級緩存空間,單個節點支持40GBps帶寬和低延遲訪問,使長上下文場景的TTFT延遲降低13倍,高并發場景性能顯著提升。DataInsight解決方案支持百億級數據秒級檢索,通過多維度組合查詢和增量數據感知,幫助企業快速構建知識庫平臺。
張文濤畢業于華中科技大學計算機專業碩士,擁有15年分布式存儲領域經驗,主導了YRCloudFile從研發到落地的全過程。該系統已廣泛應用于AI及高算力場景,具備豐富的架構設計和性能優化經驗。









