Baidu Qianfan pesquisa aprofundada do Agent lidera a classificação na avaliação de autoridade DeepResearch Bench

2026-02-04 09:41:02

Geração de resumo em curso

2 de fevereiro de 2024, notícia, a avaliação autoritativa de agentes inteligentes DeepResearch Bench divulgou os resultados mais recentes, o Agent de Pesquisa Profunda Qianfan-DeepResearch Pro da Baidu, com base em suas excelentes capacidades de pesquisa de ponta a ponta e alta qualidade de produção de relatórios, alcançou o topo da lista de avaliação. Nos quatro principais critérios que medem a qualidade dos relatórios de pesquisa — abrangência, insights, conformidade com instruções e legibilidade — o Agent de Pesquisa Profunda Qianfan atingiu liderança no setor.

Atualmente, a Pesquisa Profunda (DeepResearch) está se tornando um divisor de águas na evolução da inteligência artificial. Diferente da geração tradicional de textos, a tarefa de pesquisa profunda exige que o sistema seja capaz de executar autonomamente tarefas cognitivas de múltiplos passos e iterativas, abrangendo desde a compreensão de necessidades complexas, obtenção de informações amplas até a geração de insights profundos. O Agent de Pesquisa Profunda já é amplamente utilizado em revisões acadêmicas, pesquisa financeira, análise de negócios e outras áreas, podendo reduzir trabalhos manuais que normalmente levam dias para serem concluídos em minutos, aumentando significativamente a eficiência na pesquisa e na tomada de decisão.

Como o “padrão de ouro” para avaliar as capacidades nesta área de ponta, o DeepResearch Bench preenche a lacuna na avaliação de IA geral em tarefas de pesquisa profunda de ponta a ponta. Os atuais benchmarks focam principalmente em habilidades isoladas, dificultando a avaliação da complexidade de raciocínio de longo prazo e de síntese de busca. Esta lista foi projetada por especialistas do setor com 100 tarefas de pesquisa de nível de doutorado, abrangendo 22 disciplinas, e introduz o framework de avaliação de qualidade de relatórios RACE e avaliação de precisão de citações, sendo atualmente o sistema de avaliação mais rigoroso e realista para medir a produtividade do Agent de Pesquisa Profunda globalmente.

O Agent de Pesquisa Profunda Qianfan conseguiu se destacar nesta avaliação graças ao seu excelente design técnico, que utiliza uma arquitetura Agentic, implementando um ciclo de “compreensão de tarefas - planejamento - execução” para entrega de pesquisa de ponta a ponta, apoiado pelas tecnologias de busca do Baidu e RAG para garantir amplitude, confiabilidade e relevância na obtenção de informações. Dois aspectos importantes do design asseguram a precisão na execução das tarefas: primeiro, a abordagem de pesquisa “de grosso a fino” para lidar com a incerteza das tarefas; segundo, o planejamento de caminhos de execução aprofundados e mecanismos de reflexão em tempo real, permitindo que o sistema avalie dinamicamente o progresso e ajuste estratégias em cada etapa, evitando alucinações e desvios de percurso, garantindo a alta qualidade na conclusão de tarefas complexas.

Além disso, na fase de geração de relatórios, o Agent de Pesquisa Profunda Qianfan utiliza um mecanismo de renderização de relatórios em duas fases: primeiro, produz um relatório pivô, otimizando as capacidades de raciocínio relacionadas para garantir coerência lógica e abrangência do conteúdo; depois, usando diferentes ferramentas de renderização, gera relatórios finais em formatos como markdown, html, ppt, entre outros, possibilitando uma entrega “de uma pesquisa, múltiplos formatos”.

Atualmente, este Agent de Pesquisa Profunda já está disponível na plataforma Baidu Qianfan, onde os usuários podem inserir demandas de pesquisa complexas e o sistema gera relatórios profissionais com citações em poucos minutos, realizando de fato uma entrega de insights profundos em “minutos”.

Esta conquista demonstra a forte capacidade de suporte do Agent Infra do Baidu Qianfan. O Agent Infra oferece um serviço completo de desenvolvimento de modelos, ferramentas, criação de Agents, dados e ambientes de execução de Agents. A plataforma já desenvolveu mais de 1,3 milhão de Agents, e as ferramentas, lideradas pela capacidade exclusiva do Baidu “Busca de IA do Baidu”, têm uma média de dezenas de milhões de chamadas diárias.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.