艾瑞斯·科爾曼2026年3月21日 00:05OpenAI的新IH-Challenge訓練數據集通過提升指令層級結構最多15%,增強了對提示注入和越獄攻擊的防禦能力。OpenAI已發布IH-Challenge,一個用於強化學習訓練的數據集,旨在教導AI模型如何優先處理可信的指令而非惡意指令。該數據集於2026年3月19日與arXiv論文一同發布,在衡量抵抗提示注入攻擊的基準測試中,性能提升了最多15%。此發布針對大型語言模型的一個根本漏洞:當來自不同來源的指令相互衝突時,模型可能被誘導執行錯誤的指令。這也是越獄、系統提示提取以及日益複雜的提示注入攻擊的根源,這些攻擊正影響著具有代理能力的AI系統。## 層級問題OpenAI的模型遵循嚴格的信任順序:系統 > 開發者 > 用戶 > 工具。當用戶提出違反系統安全政策的請求時,模型應拒絕。當網頁爬取工具返回含有惡意指令的內容時,模型也應忽略。聽起來很簡單,但實際上,可靠地訓練這一點一直是噩夢。以往的強化學習方法遇到三個問題。第一,模型未能通過指令層級測試,不是因為理解錯誤,而是因為指令本身過於複雜。第二,在模糊衝突中判斷“正確”回應具有主觀性——甚至AI裁判也會出錯。第三,模型學會了走捷徑,比如拒絕一切,這雖然最大化了安全分數,但也破壞了實用性。## IH-Challenge的實際作用該數據集通過設計簡單的任務來避開這些陷阱。每個場景都提供一個高權限的指令(“只回答‘是’或‘否’”),接著是一個試圖覆蓋它的低權限訊息。一個Python腳本——而非易出錯的AI裁判——會評分模型的回應是否遵守了較高優先級的限制。沒有歧義。沒有適用於所有任務的捷徑。OpenAI在該數據集上訓練了一個內部模型,稱為GPT-5 Mini-R。根據學術和內部基準測試,結果顯示持續提升:TensorTrust開發者-用戶衝突分數從0.76提升至0.91(+0.15)。系統-用戶衝突解決率從0.84提升至0.95(+0.11)。開發者-用戶衝突處理從0.83提升至0.95(+0.12)。更重要的是,訓練後的模型並未變得不那麼有用。過度拒絕的比率反而有所改善——模型在區分真正威脅與善意請求方面變得更好。GPQA Diamond和AIME 2024的分數保持穩定,雖然與o1的聊天勝率略微下降,從0.71降至0.66。## 實際安全影響實際應用中,效果體現在兩個方面。安全可控性提升——當在系統提示中加入特定類別的安全規範時,IH訓練模型在拒絕不允許內容方面表現更佳,且整體幫助性未降低。提示注入抗性也得到了增強。在CyberSecEval 2和OpenAI內部基準(基於之前對ChatGPT Atlas有效的攻擊)中,訓練模型明顯優於基線。OpenAI已在Hugging Face公開了IH-Challenge數據集。對於構建能調用工具、閱讀不可信文件並執行現實世界操作的代理系統的開發者來說,這解決了AI安全領域中較難的未解決問題之一。時機尤為重要。隨著AI代理逐漸獲得自主性,持續優先處理可信指令的能力不再是“可有可無”,而是部署的前提條件。*圖片來源:Shutterstock*
OpenAI 釋出 IH-Challenge 資料集以增強 AI 對提示注入攻擊的抵禦能力
艾瑞斯·科爾曼
2026年3月21日 00:05
OpenAI的新IH-Challenge訓練數據集通過提升指令層級結構最多15%,增強了對提示注入和越獄攻擊的防禦能力。
OpenAI已發布IH-Challenge,一個用於強化學習訓練的數據集,旨在教導AI模型如何優先處理可信的指令而非惡意指令。該數據集於2026年3月19日與arXiv論文一同發布,在衡量抵抗提示注入攻擊的基準測試中,性能提升了最多15%。
此發布針對大型語言模型的一個根本漏洞:當來自不同來源的指令相互衝突時,模型可能被誘導執行錯誤的指令。這也是越獄、系統提示提取以及日益複雜的提示注入攻擊的根源,這些攻擊正影響著具有代理能力的AI系統。
層級問題
OpenAI的模型遵循嚴格的信任順序:系統 > 開發者 > 用戶 > 工具。當用戶提出違反系統安全政策的請求時,模型應拒絕。當網頁爬取工具返回含有惡意指令的內容時,模型也應忽略。
聽起來很簡單,但實際上,可靠地訓練這一點一直是噩夢。
以往的強化學習方法遇到三個問題。第一,模型未能通過指令層級測試,不是因為理解錯誤,而是因為指令本身過於複雜。第二,在模糊衝突中判斷“正確”回應具有主觀性——甚至AI裁判也會出錯。第三,模型學會了走捷徑,比如拒絕一切,這雖然最大化了安全分數,但也破壞了實用性。
IH-Challenge的實際作用
該數據集通過設計簡單的任務來避開這些陷阱。每個場景都提供一個高權限的指令(“只回答‘是’或‘否’”),接著是一個試圖覆蓋它的低權限訊息。一個Python腳本——而非易出錯的AI裁判——會評分模型的回應是否遵守了較高優先級的限制。
沒有歧義。沒有適用於所有任務的捷徑。
OpenAI在該數據集上訓練了一個內部模型,稱為GPT-5 Mini-R。根據學術和內部基準測試,結果顯示持續提升:
TensorTrust開發者-用戶衝突分數從0.76提升至0.91(+0.15)。系統-用戶衝突解決率從0.84提升至0.95(+0.11)。開發者-用戶衝突處理從0.83提升至0.95(+0.12)。
更重要的是,訓練後的模型並未變得不那麼有用。過度拒絕的比率反而有所改善——模型在區分真正威脅與善意請求方面變得更好。GPQA Diamond和AIME 2024的分數保持穩定,雖然與o1的聊天勝率略微下降,從0.71降至0.66。
實際安全影響
實際應用中,效果體現在兩個方面。安全可控性提升——當在系統提示中加入特定類別的安全規範時,IH訓練模型在拒絕不允許內容方面表現更佳,且整體幫助性未降低。
提示注入抗性也得到了增強。在CyberSecEval 2和OpenAI內部基準(基於之前對ChatGPT Atlas有效的攻擊)中,訓練模型明顯優於基線。
OpenAI已在Hugging Face公開了IH-Challenge數據集。對於構建能調用工具、閱讀不可信文件並執行現實世界操作的代理系統的開發者來說,這解決了AI安全領域中較難的未解決問題之一。
時機尤為重要。隨著AI代理逐漸獲得自主性,持續優先處理可信指令的能力不再是“可有可無”,而是部署的前提條件。
圖片來源:Shutterstock