Perplexity AI disponibiliza BrowseSafe em código aberto para combater a injeção de prompts na navegação por IA

2025-12-04 13:50:05

Em Resumo

A Perplexity disponibilizou em open source o BrowseSafe, uma ferramenta de segurança concebida para proteger assistentes de navegação com IA de instruções maliciosas escondidas em páginas web.

A Perplexity AI, a empresa responsável pelo motor de busca Perplexity baseado em IA, anunciou o lançamento do BrowseSafe, um benchmark de investigação aberto e um modelo de deteção de conteúdos concebidos para aumentar a segurança dos utilizadores à medida que agentes de IA começam a operar diretamente no ambiente do navegador.

À medida que os assistentes de IA ultrapassam as interfaces de pesquisa tradicionais e começam a realizar tarefas dentro dos navegadores web, prevê-se que a estrutura da internet passe de páginas estáticas para interações orientadas por agentes. Neste modelo, o navegador torna-se um espaço de trabalho onde um assistente pode agir em vez de simplesmente fornecer respostas, criando a necessidade de sistemas que garantam que o assistente atua sempre no interesse do utilizador.

O BrowseSafe é um modelo de deteção especializado, treinado para avaliar uma questão central: se o HTML de uma página web contém instruções nocivas destinadas a manipular um agente de IA. Embora modelos grandes e polivalentes possam avaliar estes riscos com precisão, são normalmente demasiado exigentes em termos de recursos para uma análise contínua em tempo real. O BrowseSafe foi concebido para analisar páginas web completas rapidamente, sem afetar o desempenho do navegador. A par do modelo, a empresa lançou também o BrowseSafe-Bench, uma suíte de testes destinada a apoiar a avaliação contínua e o aperfeiçoamento dos mecanismos de defesa.

O aumento da navegação baseada em IA também introduz novos desafios de cibersegurança que exigem estratégias de proteção atualizadas. A empresa já explicou anteriormente como o seu sistema Comet aplica múltiplas camadas de defesa para manter os agentes alinhados com a intenção do utilizador, mesmo em casos em que websites tentam alterar o comportamento do agente através de injeção de prompts. A explicação mais recente foca-se em como estas ameaças são definidas, testadas com cenários de ataque do mundo real e integradas em modelos treinados para identificar e bloquear instruções nocivas rapidamente, garantindo uma implementação segura dentro do navegador.

A injeção de prompts refere-se a linguagem maliciosa inserida em texto processado por um sistema de IA, com o objetivo de redirecionar o seu comportamento. Num ambiente de navegação, os agentes leem páginas inteiras, o que permite que estes ataques sejam incorporados em áreas como comentários, templates ou rodapés extensos. Estas instruções ocultas podem influenciar as ações dos agentes se não forem devidamente detetadas. Podem ainda ser escritas em formatos subtis ou multilingues, ou estar escondidas em elementos HTML que não aparecem visualmente na página—como atributos de dados ou campos de formulário não renderizados—que os utilizadores não veem, mas que os sistemas de IA interpretam.

BrowseSafe-Bench: Reforçar a Segurança de Agentes em Ambientes Web Reais

Para analisar ameaças de injeção de prompts num ambiente semelhante ao da navegação real, a empresa desenvolveu o BrowseSafe, um modelo de deteção que foi treinado e lançado em open source, juntamente com o BrowseSafe-Bench, um benchmark público que contém 14.719 exemplos inspirados em páginas web reais. O conjunto de dados incorpora estruturas HTML complexas, conteúdos de qualidade variada e uma vasta gama de exemplos maliciosos e benignos que diferem quanto à intenção do atacante, localização da instrução injetada na página e estilo linguístico. Abrange 11 categorias de ataque, nove métodos de injeção, desde elementos ocultos a blocos de texto visíveis, e três estilos de linguagem, desde comandos diretos a formulações mais subtis e indiretas.

No modelo de ameaça definido, o assistente opera num ambiente de confiança, enquanto todo o conteúdo web externo é considerado não confiável. Agentes maliciosos podem controlar sites inteiros ou inserir texto nocivo—como descrições, comentários ou publicações—em páginas legítimas às quais o agente acede. Para mitigar estes riscos, qualquer ferramenta capaz de devolver dados não confiáveis, incluindo páginas web, emails ou ficheiros, é sinalizada, e o seu output bruto é processado pelo BrowseSafe antes de o agente o poder interpretar ou agir com base nele. O BrowseSafe funciona como um componente de uma estratégia de segurança mais ampla que inclui a análise de conteúdos recebidos, limitação por defeito das permissões das ferramentas e exigência de aprovação do utilizador para determinadas operações sensíveis, complementada pelas proteções standard dos navegadores. Esta abordagem em camadas visa suportar o uso de assistentes de navegação avançados sem comprometer a segurança.

Os resultados dos testes no BrowseSafe-Bench evidenciam várias tendências. Formas diretas de ataque, como tentativas de extrair prompts do sistema ou redirecionar informações através de caminhos de URL, estão entre as mais fáceis de detetar pelos modelos. Ataques multilingues, bem como versões escritas de forma indireta ou hipotética, tendem a ser mais difíceis porque evitam pistas lexicais em que muitos sistemas de deteção se baseiam. A localização do texto injetado também é relevante. Instâncias ocultas em comentários HTML são detetadas de forma relativamente eficaz, ao passo que as colocadas em secções visíveis como rodapés, células de tabelas ou parágrafos são mais desafiantes, revelando uma fragilidade estrutural no tratamento de injeções não ocultas. Um treino aprimorado com exemplos bem concebidos pode aumentar o desempenho da deteção nestes casos.

O BrowseSafe e o BrowseSafe-Bench estão disponíveis como recursos open-source. Os programadores que trabalham em agentes autónomos podem utilizá-los para reforçar as defesas contra a injeção de prompts sem necessidade de desenvolver sistemas de proteção próprios. O modelo de deteção pode correr localmente e sinalizar instruções nocivas antes de chegarem ao núcleo de tomada de decisão do agente, com o desempenho otimizado para analisar páginas completas em tempo real. O vasto conjunto de cenários de ataque realistas do BrowseSafe-Bench oferece um meio de testar modelos contra os padrões HTML complexos que normalmente comprometem modelos de linguagem standard, enquanto técnicas de segmentação e análise paralela ajudam os agentes a processar páginas grandes e não confiáveis de forma eficiente, sem expor os utilizadores a riscos acrescidos.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.