Perplexity AIがAIブラウジングにおけるプロンプトインジェクション対策としてBrowseSafeをオープンソース化

要約

Perplexityは、AIブラウザアシスタントをウェブページに隠された悪意のある命令から保護するために設計されたセキュリティツール「BrowseSafe」をオープンソース化しました。

Perplexity AI Open-Sources BrowseSafe To Combat Prompt Injection In AI Browsing

AI主導の検索エンジン「Perplexity」を提供するPerplexity AIは、AIエージェントがブラウザ環境内で直接動作し始める中でユーザーの安全性を高めるため、オープンリサーチベンチマークおよびコンテンツ検出モデル「BrowseSafe」をリリースしたと発表しました。

AIアシスタントが従来の検索インターフェースを超えてウェブブラウザ内でタスクを実行し始めるにつれ、インターネットの構造は静的なページからエージェント駆動のインタラクションにシフトしていくと予想されています。このモデルでは、ブラウザが単なる回答提供の場ではなく、アシスタントが実際に行動を起こす作業空間となり、アシスタントが常にユーザーの利益に沿って行動することを保証するシステムが必要となります。

BrowseSafeは、ウェブページのHTMLにAIエージェントを操作する意図のある有害な指示が含まれているかどうかという核心的な問いを評価するために訓練された専門的な検出モデルです。大規模な汎用モデルはこれらのリスクを高精度で評価できますが、連続的なリアルタイムスキャンにはリソースがかかりすぎます。BrowseSafeは、ブラウザのパフォーマンスに影響を与えることなく、完全なウェブページを迅速に分析するよう設計されています。モデルと併せて、テストスイート「BrowseSafe-Bench」も公開され、防御メカニズムの継続的な評価と改善をサポートします。

AIベースのブラウジングの台頭は、新たなサイバーセキュリティ上の課題ももたらし、これまでとは異なる保護戦略が必要となります。同社は以前、Cometシステムが複数の防御層を活用し、ウェブサイトがプロンプトインジェクションを通じてエージェントの動作を変更しようとする場合でも、エージェントをユーザーの意図に沿わせ続ける方法を説明しました。今回の発表では、こうした脅威がどのように定義され、実際の攻撃シナリオを使ってテストされ、迅速な識別とブロックが可能なようにモデルに組み込まれているかに焦点を当てています。

プロンプトインジェクションとは、AIシステムが処理するテキストに悪意のある言語を挿入し、システムの動作を意図的に変更させる攻撃です。ブラウザ環境では、エージェントがページ全体を読むため、こうした攻撃はコメントやテンプレート、拡張フッターなどに埋め込まれることがあります。これらの隠された指示が適切に検出されない場合、エージェントの行動に影響を与えることがあります。また、巧妙な表現や多言語形式で記述されたり、ユーザーには見えないHTML要素(データ属性や未表示のフォームフィールドなど)に隠されたりすることもあり、ユーザーは気づかなくてもAIシステムは解釈してしまいます。

BrowseSafe-Bench:現実のウェブ環境におけるエージェントセキュリティの強化

実際のブラウジングに近い環境でプロンプトインジェクションの脅威を分析するため、同社はBrowseSafeという検出モデルを開発・訓練し、オープンソースとして公開しました。また、実運用のウェブページを模した14,719件の例を含む公開ベンチマーク「BrowseSafe-Bench」も提供しています。このデータセットには、複雑なHTML構造、品質が混在するコンテンツ、攻撃者の意図や注入箇所、言語スタイルが異なる多様な悪意・無害サンプルが含まれています。これには11種類の攻撃カテゴリ、隠し要素から可視テキストブロックまで9つの注入方法、直接的な命令からより微妙で間接的な表現まで3つの言語スタイルがカバーされています。

想定される脅威モデルの下では、アシスタントは信頼された環境で動作し、外部ウェブコンテンツはすべて信頼できないものとして扱われます。悪意のある攻撃者は、サイト全体を制御したり、正規のページ内に説明文、コメント、投稿などの有害なテキストを挿入したりできます。これらのリスクを軽減するため、ウェブページ、メール、ファイルなど信頼できないデータを返す可能性のあるツールはすべてフラグが立てられ、生データはエージェントが解釈・行動する前にBrowseSafeによって処理されます。BrowseSafeは、受信コンテンツのスキャン、デフォルトでのツール権限制限、特定の重要な操作に対するユーザー承認要求、標準的なブラウザ保護の補完など、より広範なセキュリティ戦略の一部として機能します。この多層的なアプローチは、高機能なブラウザベースアシスタントを安全性を損なうことなく利用することを可能にします。

BrowseSafe-Benchによるテスト結果では、いくつかの傾向が明らかになっています。システムプロンプトの抽出やURLパスによる情報リダイレクトなどの直接的な攻撃は、モデルが最も簡単に検出できるタイプです。一方、多言語攻撃や間接的・仮定的な表現によるバージョンは、検出システムが頼りにする語彙的手がかりを回避するため、より困難です。注入されたテキストの位置も重要で、HTMLコメント内に隠された場合は比較的効果的に検出されますが、フッターやテーブルセル、段落など可視部分に配置された場合はより難しく、非隠蔽型注入への構造的な弱点が明らかになっています。設計の良い例を用いた訓練の強化により、これらのケースでの検出精度は向上します。

BrowseSafeおよびBrowseSafe-Benchはオープンソースリソースとして提供されています。自律型エージェントを開発する開発者は、独自に防御システムを構築することなく、プロンプトインジェクション対策を強化できます。検出モデルはローカルで動作し、有害な指示がエージェントの意思決定層に到達する前にフラグを付けることができ、ページ全体をリアルタイムでスキャンするために最適化されています。BrowseSafe-Benchの現実的な攻撃シナリオの大規模セットは、標準的な言語モデルがしばしば苦戦する複雑なHTMLパターンに対するモデルのストレステストを可能にし、チャンク処理や並列スキャン技術を活用することで、エージェントは大規模で信頼できないページも効率的に処理しつつ、ユーザーのリスクを高めることなく対応できます。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン