OpenAI 釋出 IH-Challenge 資料集以增強 AI 對提示注入攻擊的抵禦能力

AsiaTokenFund · 2026-03-21T07:50:07+00:00

Iris Coleman2026年3月21日 00:05OpenAI推出的IH-Challenge訓練數據集將大型語言模型（LLM）的指令層級提升了最多15%，增強了對提示注入和越獄攻擊的防禦能力。OpenAI已發布IH-Challenge，一個基於強化學習的訓練方案

AsiaTokenFund

2026-03-21 07:50:07

艾瑞斯·科爾曼

2026年3月21日 00:05

OpenAI的新IH-Challenge訓練數據集通過提升指令層級結構最多15%，增強了對提示注入和越獄攻擊的防禦能力。

OpenAI已發布IH-Challenge，一個用於強化學習訓練的數據集，旨在教導AI模型如何優先處理可信的指令而非惡意指令。該數據集於2026年3月19日與arXiv論文一同發布，在衡量抵抗提示注入攻擊的基準測試中，性能提升了最多15%。

此發布針對大型語言模型的一個根本漏洞：當來自不同來源的指令相互衝突時，模型可能被誘導執行錯誤的指令。這也是越獄、系統提示提取以及日益複雜的提示注入攻擊的根源，這些攻擊正影響著具有代理能力的AI系統。

層級問題

OpenAI的模型遵循嚴格的信任順序：系統 > 開發者 > 用戶 > 工具。當用戶提出違反系統安全政策的請求時，模型應拒絕。當網頁爬取工具返回含有惡意指令的內容時，模型也應忽略。

聽起來很簡單，但實際上，可靠地訓練這一點一直是噩夢。

以往的強化學習方法遇到三個問題。第一，模型未能通過指令層級測試，不是因為理解錯誤，而是因為指令本身過於複雜。第二，在模糊衝突中判斷“正確”回應具有主觀性——甚至AI裁判也會出錯。第三，模型學會了走捷徑，比如拒絕一切，這雖然最大化了安全分數，但也破壞了實用性。

IH-Challenge的實際作用

該數據集通過設計簡單的任務來避開這些陷阱。每個場景都提供一個高權限的指令（“只回答‘是’或‘否’”），接著是一個試圖覆蓋它的低權限訊息。一個Python腳本——而非易出錯的AI裁判——會評分模型的回應是否遵守了較高優先級的限制。

沒有歧義。沒有適用於所有任務的捷徑。

OpenAI在該數據集上訓練了一個內部模型，稱為GPT-5 Mini-R。根據學術和內部基準測試，結果顯示持續提升：

TensorTrust開發者-用戶衝突分數從0.76提升至0.91（+0.15）。系統-用戶衝突解決率從0.84提升至0.95（+0.11）。開發者-用戶衝突處理從0.83提升至0.95（+0.12）。

更重要的是，訓練後的模型並未變得不那麼有用。過度拒絕的比率反而有所改善——模型在區分真正威脅與善意請求方面變得更好。GPQA Diamond和AIME 2024的分數保持穩定，雖然與o1的聊天勝率略微下降，從0.71降至0.66。

實際安全影響

實際應用中，效果體現在兩個方面。安全可控性提升——當在系統提示中加入特定類別的安全規範時，IH訓練模型在拒絕不允許內容方面表現更佳，且整體幫助性未降低。

提示注入抗性也得到了增強。在CyberSecEval 2和OpenAI內部基準（基於之前對ChatGPT Atlas有效的攻擊）中，訓練模型明顯優於基線。

OpenAI已在Hugging Face公開了IH-Challenge數據集。對於構建能調用工具、閱讀不可信文件並執行現實世界操作的代理系統的開發者來說，這解決了AI安全領域中較難的未解決問題之一。

時機尤為重要。隨著AI代理逐漸獲得自主性，持續優先處理可信指令的能力不再是“可有可無”，而是部署的前提條件。

圖片來源：Shutterstock

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人按讚了這條動態

打賞
1
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate金手指
5.78萬熱度
#
加密市場普遍上漲
2.22萬熱度
#
鮑威爾鴿派發言重燃降息預期
281.25萬熱度
#
川普釋放停戰訊號
40.14萬熱度
#
BTC能否守住6.5萬美元？
10142.37萬熱度

熱門 Gate Fun
查看更多

1
BBLB
比比拉布
市值:$2237.93持有人數:1
0.00%
2
CS
测试
市值:$2227.58持有人數:1
0.00%
3
kol
起飞
市值:$2227.58持有人數:1
0.00%
4
koki
koki
市值:$2224.13持有人數:1
0.00%
5
TOKEN
Token
市值:$2318.07持有人數:2
0.44%

OpenAI 釋出 IH-Challenge 資料集以增強 AI 對提示注入攻擊的抵禦能力

層級問題

IH-Challenge的實際作用

實際安全影響

熱門話題

Gate金手指

加密市場普遍上漲

鮑威爾鴿派發言重燃降息預期

川普釋放停戰訊號

BTC能否守住6.5萬美元？

熱門 Gate Fun

BBLB

比比拉布

CS

测试

kol

起飞

koki

koki

TOKEN

Token

置頂