滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

馬里蘭大學DynaGuard：為AI裝上“規則翻譯器”，讓定制化守護成為現實

時間：2025-09-23 03:45:39 來源：小AI編輯：快訊 IP：北京 發表評論無障礙通道

當用戶與AI聊天機器人互動時，常會遇到某些話題被回避或拒絕的情況。這背后并非AI具備自主意識，而是依賴被稱為"守護模型"的安全系統在發揮作用。馬里蘭大學Monte Hoover團隊最新提出的DynaGuard技術，正在重構這類安全系統的運作邏輯。該研究成果已通過GitHub和Huggingface平臺開源，為AI安全領域帶來突破性解決方案。

2024年加拿大航空公司遭遇的訴訟案，暴露了傳統AI守護系統的致命缺陷。其聊天機器人因錯誤承諾退款導致企業承擔法律責任，這反映出當前技術僅能識別暴力、毒品等預設危險類別，卻無法理解具體業務規則的局限。研究團隊形象地比喻：現有系統如同只掌握基礎交通規則的司機，面對"社區限速20公里"等特殊規則時就會失效。實驗數據顯示，即便是最新LlamaGuard3模型，在處理定制規則時的準確率也僅有13.1%。

DynaGuard的創新在于構建了動態規則理解能力。與傳統系統不同，該技術通過Qwen3系列模型微調，實現了對自然語言規則的深度解析。研究團隊專門開發了包含4萬個政策場景的DynaBench數據集，涵蓋航空公司退款政策、醫療機構討論規范等復雜場景。每個政策場景都包含詳細規則、多輪對話記錄和精準標注，確保模型能處理從2輪到30輪不等的復雜對話。

技術實現上，研究團隊采用雙模式訓練策略：在1/3訓練樣本中嵌入思維鏈推理軌跡，使模型具備詳細解釋違規原因的能力；其余樣本則訓練快速判斷模式。這種設計讓DynaGuard既能秒級響應簡單查詢，也能在需要時提供完整推理過程。實驗表明，其快速模式與完整模式的準確率差距僅1.3%，在傳統安全基準測試中更超越GPT-4o-mini等主流模型。

實際應用中，DynaGuard展現出獨特的糾錯能力。在醫療場景測試中，當AI生成包含不當解剖描述的內容時，系統不僅能識別違規，還能具體指出違反了"禁止非醫學必要人體描述"的哪條細則，并指導AI修正回答。這種可解釋性設計使錯誤反饋從簡單的"禁止"升級為建設性指導，為AI自我優化提供了可能。

跨模型協作實驗進一步驗證了技術價值。研究團隊讓DynaGuard指導Ministral-8B模型完成指令任務，結果后者在IFeval基準測試中的準確率從57.3%提升至63.8%。這種"教師-學生"模式的成功，證明了新系統能幫助其他AI模型動態適應未知規則。更值得關注的是，該訓練方法在Qwen、Llama等不同模型家族中均表現出良好泛化性。

盡管取得突破，研究團隊坦言技術仍存改進空間。在涉及事實核查的政策場景中，系統錯誤率達73.4%；處理包含86條規則的復雜政策時，準確率會出現明顯下降。這些挑戰指向未來優化方向：增強外部知識整合能力和提升長文本處理效能。

開源策略使這項技術迅速獲得行業關注。開發者可通過GitHub獲取完整代碼庫，利用Huggingface平臺部署預訓練模型。對于需要定制化AI規則的企業而言，DynaGuard特別適用于客服退款政策、醫療內容審核、社交平臺社區準則等場景。研究團隊強調，開放技術生態將加速AI安全領域的范式轉變，推動更多智能體協作模式的出現。

更多>同類資訊

多地快遞價格上調，行業告別低價競爭邁向理性發展新階段

09-23

2025秋季搜狐視頻播主大會三亞啟幕多元互動共筑關注流社交新體驗

“以視頻會友，不亦樂乎”，這場關注流盛典以張朝陽點燃“社交圣火”開篇，現場多個分區精彩紛呈，涵蓋舞蹈區、漢服區、科學區、健康區、文化區、國風舞樂區、攝影區、原住民區、音樂區、二次元區、融媒體&線人區以及運動…

09-23

2025秋季搜狐視頻播主大會三亞啟幕多元互動共探關注流社交新魅力

“以視頻會友，不亦樂乎”，這場關注流盛典以張朝陽點燃 “社交圣火” 開篇，現場多個分區精彩紛呈，涵蓋舞蹈區、漢服區、科學區、健康區、文化區、國風舞樂區、攝影區、原住民區、音樂區、二次元區、融媒體&線人區以及…

09-23

?閃極科技張波回應高管變動傳聞，透露AI眼鏡訂單與開發新進展?

09-23

小紅書辦公應用“REDcity”升級為“hi”，AI助手“hibo”成智能辦公新幫手

09-23

Meta CTO詳解新智能眼鏡演示“翻車”實因：資源規劃失誤與意外漏洞作祟

09-23

小紅書內部辦公APP“hi”升級：AI助手入駐，打造高效協同辦公新體驗

09-23

小紅書辦公應用“REDcity”煥新升級為“hi”，AI助手“hibo”成智能辦公新助力

09-23

轉轉集團戰略調整：聚焦官方驗業務，自由市場業務將逐步退場

09-23

2025秋季搜狐視頻播主大會三亞啟幕，多元互動共筑關注流社交新盛景

09-23

京東王競凡：智能機器人加速發展，2028年中國機器人市場規模望達千億

來源：睿見Economy 9月16日-17日，聚合智能產業發展大會（2025）在武漢市舉行，主題為“協同融合創新鏈產業鏈推動聚合智能產業發展”。王競凡指出，目前智能機器人處于一個前所未有的高速發展道路，智…

09-23

成都“熊貓”農業機器人亮相在即，每小時巡檢30畝農田助力豐收

賴金洋說，“而且借助它頭頂的黑光相機，即使在夜間它也能正常工作，一臺機器人能替代1500人次/年人工巡檢，大幅提高了巡檢效率。” 對于機器人的外觀，賴金洋說：“由于這款機器人出生于成都，所以我們仿照大熊貓給其…

09-23

2025年生物多樣性研究再突破：中國科研團隊頻現新物種添彩生態保護

這些發現不僅豐富了全球生物多樣性數據庫，更為生態保護、物種演化研究提供了關鍵樣本，彰顯了中國在生物多樣性研究領域的國際影響力。中科院昆明植物研究所副研究員劉健指出：“現代分類學已從‘看圖識字’升級為多組學整合…

09-23

中科院“星影”飛翼無人機亮相長春航展，展現無人作戰領域閉環實力

這組數據說明了幾個方向：第一，它是一款中型遠程平臺，適合長航時偵察和遠端打擊；第二，400公斤的掛載量既能帶光電吊艙和電子戰設備，也能帶精確制導彈藥或小型炸彈組合；第三，2000公里的半徑意味著它具備較強的…

09-23

心理VR設備價格解析：影響因素、區間及如何選到高性價比之選

這些品牌可能在研發成本上控制較好，或者采用了一些較為成熟的技術，所以能以較低的價格進入市場，但在功能和穩定性上可能與大品牌存在一定差距。可以多了解不同品牌和型號的設備，對比它們的價格、功能和售后等方面，選擇最…

09-23

點擊查看更多 +

全站最新

?9月狹義乘用車零售預計達215萬輛，新能源車滲透率或超58%引關注?

6.88萬起極狐T1實測：空間越級配置足，小電車市場殺出“全能王”？

?雷軍官宣小米17系列9月25日發布，盧偉冰稱產品力跨代升級且對標iPhone17?

?小米17系列9月25日發布在即，雷軍年度演講《改變》將揭秘芯片與汽車故事?

?雷軍宣布：9月25日小米17系列發布，同期將舉辦第6次年度演講聊芯片與汽車故事?

小米SU7標準版11.7萬輛召回：OTA升級背后的智能駕駛安全與行業新挑戰

熱門內容

本欄最新

NVIDIA50億美元投資Intel，臺積電風險可控，先進制程優勢或延續至2030年

復旦團隊繪制代謝組圖譜：解鎖疾病早期預警密碼，助力精準醫療

國慶中秋假期將至，租臺無人機記錄美好旅程成熱門新選擇

國慶假期出行新選擇：無人機租賃受熱捧，3C數碼租賃市場火熱升溫

字節跳動凌晨發聲：TikTok美國業務將依法推進，服務美國用戶不停歇

對話松延動力姜哲源：25歲團隊如何從創業民房走向“千臺俱樂部”并沖刺交付？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 商業合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

馬里蘭大學DynaGuard：為AI裝上“規則翻譯器”，讓定制化守護成為現實

日本精品一区二区三区高清久久