Perplexity AI с открытым исходным кодом выпускает BrowseSafe для борьбы с внедрением вредоносных запросов при использовании ИИ для просмотра веб-страниц

Кратко

Perplexity открыла исходный код BrowseSafe — инструмента безопасности, предназначенного для защиты AI-помощников в браузере от вредоносных инструкций, скрытых на веб-страницах.

Perplexity AI Open-Sources BrowseSafe To Combat Prompt Injection In AI Browsing

Perplexity AI, компания, стоящая за поисковой системой на базе искусственного интеллекта Perplexity, объявила о выпуске BrowseSafe — открытого исследовательского бенчмарка и модели обнаружения контента, предназначенных для повышения безопасности пользователей по мере того, как AI-агенты начинают работать непосредственно в браузерной среде.

Поскольку AI-помощники выходят за рамки традиционных поисковых интерфейсов и начинают выполнять задачи внутри веб-браузеров, ожидается, что структура интернета изменится от статических страниц к взаимодействиям, управляемым агентами. В этой модели браузер становится рабочим пространством, где помощник может действовать, а не просто предоставлять ответы, что создает необходимость в системах, гарантирующих, что помощник постоянно действует в интересах пользователя.

BrowseSafe — это специализированная модель обнаружения, обученная оценивать один ключевой вопрос: содержит ли HTML-страницы вредоносные инструкции, предназначенные для манипулирования AI-агентом. Хотя крупные универсальные модели могут точно оценивать эти риски, они обычно слишком ресурсоемкие для непрерывного сканирования в реальном времени. BrowseSafe разработан для быстрой проверки целых веб-страниц без влияния на производительность браузера. Вместе с моделью компания выпускает BrowseSafe-Bench — комплект для тестирования, предназначенный для поддержки постоянной оценки и улучшения защитных механизмов.

Рост популярности AI-браузеров также приводит к появлению новых киберугроз, требующих обновленных стратегий защиты. Ранее компания описывала, как ее система Comet применяет несколько уровней защиты для поддержания соответствия действий агентов целям пользователя, даже в случаях, когда сайты пытаются изменить поведение агента через инъекции подсказок (prompt injection). Последнее разъяснение фокусируется на том, как эти угрозы определяются, тестируются с использованием реальных сценариев атак и учитываются при обучении моделей, способных быстро выявлять и блокировать вредоносные инструкции для безопасного использования в браузере.

Инъекция подсказок (prompt injection) — это внедрение вредоносного текста в обрабатываемые AI-системой данные с целью изменить ее поведение. В браузере агенты читают целые страницы, позволяя таким атакам быть встроенными, например, в комментарии, шаблоны или расширенные футеры. Эти скрытые инструкции могут влиять на действия агента, если не будут вовремя обнаружены. Они могут быть написаны завуалированно, на нескольких языках или скрыты в HTML-элементах, не видимых пользователю — например, в атрибутах данных или невидимых полях форм, — которые пользователь не видит, но AI-система все равно интерпретирует.

BrowseSafe-Bench: повышение безопасности агентов в реальных веб-средах

Для анализа угроз инъекций подсказок в условиях, приближенных к реальному веб-серфингу, компания разработала BrowseSafe — модель обнаружения, обученную и выпущенную с открытым исходным кодом, а также BrowseSafe-Bench — публичный бенчмарк, содержащий 14 719 примеров, смоделированных по образцу реальных веб-страниц. Датасет включает сложные HTML-структуры, контент разного качества и широкий спектр как вредоносных, так и безобидных образцов, различающихся по намерениям атакующего, месту внедрения инструкции и языковому стилю. Он охватывает 11 категорий атак, 9 методов инъекции — от скрытых элементов до видимых текстовых блоков — и 3 стиля языка: от прямых команд до более завуалированных, косвенных формулировок.

В рамках определенной модели угроз помощник работает в доверенной среде, тогда как весь внешний веб-контент считается недоверенным. Злоумышленники могут контролировать целые сайты или вставлять вредоносный текст — такие как описания, комментарии или посты — на иначе легитимные страницы, к которым обращается агент. Для снижения этих рисков любой инструмент, способный возвращать недоверенные данные, включая веб-страницы, электронные письма или файлы, помечается, а его необработанный вывод обрабатывается BrowseSafe до того, как агент сможет его интерпретировать или использовать. BrowseSafe — лишь один из компонентов широкой стратегии безопасности, включающей сканирование входящего контента, ограничение разрешений инструментов по умолчанию и требование одобрения пользователя для определенных чувствительных операций, дополненное стандартными средствами защиты браузера. Такой многоуровневый подход поддерживает работу мощных браузерных помощников без ущерба для безопасности.

Результаты тестирования на BrowseSafe-Bench выявили несколько тенденций. Прямые формы атак, например попытки извлечь системные подсказки или перенаправить информацию через URL-пути, проще всего обнаруживаются моделями. Многоязычные атаки, а также версии, написанные косвенно или гипотетически, труднее выявить, поскольку они избегают лексических признаков, на которые полагается большинство систем обнаружения. Местоположение внедренного текста также играет роль: случаи, скрытые в HTML-комментариях, распознаются относительно хорошо, тогда как размещенные в видимых секциях — футерах, ячейках таблиц или абзацах — сложнее, что выявляет структурную слабость в обработке несрытых инъекций. Улучшенное обучение на качественных примерах может повысить эффективность обнаружения в этих случаях.

BrowseSafe и BrowseSafe-Bench доступны как проекты с открытым исходным кодом. Разработчики автономных агентов могут использовать их для усиления защиты от инъекций подсказок без необходимости самостоятельно строить системы безопасности. Модель обнаружения может работать локально и отмечать вредоносные инструкции до того, как они попадут в основное ядро принятия решений агента, а производительность оптимизирована для сканирования целых страниц в реальном времени. Большой набор реалистичных сценариев атак BrowseSafe-Bench позволяет нагрузочно тестировать модели на сложных HTML-структурах, которые обычно вызывают сбои у стандартных языковых моделей, а разбиение на части и параллельное сканирование помогают агентам эффективно обрабатывать большие, недоверенные страницы без увеличения риска для пользователей.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить