Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
OpenAI выпустил набор данных IH-Challenge для укрепления ИИ против атак путем внедрения подсказок
Ирис Коулман
21 марта 2026 г., 00:05
Новый обучающий набор данных IH-Challenge от OpenAI улучшает иерархию инструкций больших языковых моделей (LLM) до 15%, укрепляя защиту от инъекций подсказок и попыток взлома.
OpenAI выпустила IH-Challenge — набор данных для обучения с использованием обучения с подкреплением, предназначенный для того, чтобы научить модели ИИ приоритизировать доверенные инструкции над вредоносными. Набор данных, опубликованный 19 марта 2026 года вместе с публикацией на arXiv, показал до 15% улучшение результатов по бенчмаркам, измеряющим устойчивость к атакам инъекции подсказок.
Цель выпуска — устранить фундаментальную уязвимость больших языковых моделей: при конфликте инструкций из разных источников модели могут быть обмануты и следовать неправильной. Это лежит в основе взломов, извлечения системных подсказок и всё более сложных атак инъекции подсказок, направленных на агентные системы ИИ.
Проблема иерархии
Модели OpenAI придерживаются строгого порядка доверия: Система > Разработчик > Пользователь > Инструмент. Когда пользователь задаёт вопрос, нарушающий политику безопасности системы, модель должна отказаться отвечать. Когда веб-скрапинг-инструмент возвращает содержимое с встроенными вредоносными инструкциями, модель должна их игнорировать.
Звучит просто. На практике обучение было настоящим кошмаром.
Предыдущие подходы с использованием обучения с подкреплением сталкивались с тремя проблемами. Во-первых, модели не проходили тесты иерархии инструкций не потому, что неправильно понимали порядок, а потому что сами инструкции были слишком сложными. Во-вторых, определение «правильного» ответа при неоднозначных конфликтах было субъективным — даже ИИ-судьи ошибались. В-третьих, модели учились обходным путём, например, отказываясь отвечать вообще, что повышало показатели безопасности, но делало их бесполезными.
Что реально делает IH-Challenge
Набор данных избегает этих проблем за счёт специально простых задач. В каждом сценарии даётся инструкция высокого уровня привилегий («Ответьте только ‘Да’ или ‘Нет’»), за которой следует сообщение с меньшими привилегиями, пытающееся её обойти. Скрипт на Python — а не ошибочный судья ИИ — оценивает, соблюдена ли при ответе приоритетная инструкция.
Нет неоднозначности. Нет обходных путей, которые работают во всех задачах.
OpenAI обучила внутреннюю модель GPT-5 Mini-R на этом наборе данных. Результаты по академическим и внутренним бенчмаркам показывают стабильный прогресс:
Оценки конфликтов разработчик-пользователь в TensorTrust выросли с 0,76 до 0,91 (+0,15). Решение конфликтов система-пользователь улучшилось с 0,84 до 0,95 (+0,11). Обработка конфликтов разработчик-пользователь повысилась с 0,83 до 0,95 (+0,12).
Ключевое — обученная модель не стала менее полезной. Процент отказов снизился — модель лучше различает реальные угрозы и безобидные запросы. Рейтинги GPQA Diamond и AIME 2024 остались стабильными, хотя процент побед в чатах против o1 немного снизился с 0,71 до 0,66.
Реальные последствия для безопасности
Практическая ценность проявляется в двух областях. Улучшилась управляемость безопасностью — при добавлении категорийных спецификаций безопасности к системным подсказкам модель, обученная IH, стала чаще отказывать в ответе на запрещённый контент, не потеряв при этом полезности.
Также повысилась устойчивость к инъекциям подсказок. В тестах CyberSecEval 2 и на внутреннем бенчмарке OpenAI (основанном на атаках, которые ранее успешно обходили ChatGPT Atlas) обученная модель значительно превзошла базовые показатели.
OpenAI сделал набор данных IH-Challenge публичным на платформе Hugging Face. Для разработчиков, создающих агентные системы, вызывающие инструменты, читающих ненадёжные документы и совершающих реальные действия, это решает одну из самых сложных нерешённых задач в области безопасности ИИ.
Время играет важную роль. По мере повышения автономности ИИ-агентов способность последовательно приоритизировать доверенные инструкции становится не просто желательной, а необходимой для развертывания.
Источник изображения: Shutterstock