百度千帆深度研究 Agent登顶权威评测榜单 DeepResearch Bench

robot
Генерация тезисов в процессе

2 февраля сообщение, глубокое исследование авторитетных рейтингов интеллектуальных агентов DeepResearch Bench опубликовало последние результаты: Baidu Qianfan DeepResearch Agent (Qianfan-DeepResearch Pro) благодаря выдающимся возможностям исследования от начала до конца и высокому качеству отчетов занял первое место в рейтинге. В четырех ключевых аспектах оценки ценности исследовательских отчетов — полноте, проницательности, соблюдении инструкций и читаемости — Qianfan DeepResearch Agent достиг лидирующих позиций в отрасли.

В настоящее время DeepResearch становится ключевым разделителем в эволюции искусственного интеллекта. В отличие от традиционного генерации текста, задачи глубокого исследования требуют от системы способности самостоятельно выполнять многошаговые, итеративные когнитивные задачи, охватывающие все этапы — от понимания сложных требований и получения широкой информации до глубокого анализа и инсайтов. В настоящее время DeepResearch Agent широко применяется в академических обзорах, финансовых исследованиях, бизнес-анализе и других областях, позволяя сократить традиционные многодневные ручные исследования до минут, значительно повышая эффективность исследований и принятия решений.

В качестве «золотого стандарта» оценки возможностей этого передового направления, DeepResearch Bench заполняет пробел в оценке универсального ИИ в задачах энд-ту-энд глубокого исследования. Существующие бенчмарки в основном сосредоточены на отдельных способностях и не охватывают сложность долгосрочного рассуждения и поиска с синтезом. Этот рейтинг был разработан экспертами в области и включает 100 исследовательских задач уровня доктора, охватывающих 22 дисциплины, а также внедряет рамки оценки качества отчетов RACE и оценку точности цитирования — это самая строгая и реалистичная система оценки производительности DeepResearch Agent в мире.

Qianfan DeepResearch Agent смог выделиться в этом тестировании благодаря превосходной технической архитектуре. Он использует агентную структуру, реализуя цикл «понимание задачи — планирование — выполнение» для достижения результатов исследования от начала до конца, опираясь на поиск Baidu и технологии RAG для обеспечения широты, надежности и релевантности получения информации. Два ключевых элемента дизайна обеспечивают точность выполнения задач: во-первых, используется стратегия исследования «от общего к частному» для борьбы с неопределенностью задач; во-вторых, благодаря планированию путей глубокого выполнения и механизму рефлексии в реальном времени система может динамически оценивать прогресс и корректировать стратегию на каждом этапе, эффективно избегая галлюцинаций и отклонений от пути, обеспечивая высокое качество выполнения сложных задач.

Кроме того, на этапе генерации отчетов Qianfan DeepResearch Agent использует двухэтапный механизм рендеринга: сначала создается основной отчет (pivot), с помощью оптимизации релевантных рассуждений для обеспечения логической последовательности и полноты содержания; затем с помощью различных инструментов рендеринга на основе основного отчета формируются финальные отчеты в форматах markdown, html, ppt и других, реализуя концепцию «один раз — многоформатная доставка исследования».

В настоящее время этот DeepResearch Agent уже запущен на платформе Baidu Qianfan. Пользователи могут просто ввести сложные исследовательские требования, и система за десять минут создаст профессиональный исследовательский отчет с цитатами, что позволяет действительно реализовать «минутное» предоставление глубоких инсайтов.

Этот успех отражает мощные возможности инфраструктуры Baidu Qianfan Agent Infra. Платформа предоставляет комплексные услуги по разработке моделей, инструментов, созданию агентов, данных и среды выполнения агентов. За время работы было создано более 1,3 миллиона агентов, а среднесуточный вызов инструментов, таких как «Baidu AI Search», превысил сотни миллионов запросов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить