百度千帆 глибоке дослідження Agent підкорив авторитетний рейтинг DeepResearch Bench

2026-02-04 09:41:02

Генерація анотацій у процесі

2 лютого повідомляється, що глибоке дослідження авторитетного рейтингу інтелектуальних агентів DeepResearch Bench опублікувало нові результати. Baidu Qianfan DeepResearch Agent (Qianfan-DeepResearch Pro) завдяки видатним можливостям дослідження від кінця до кінця та високій якості звітів посів перше місце в рейтингу. За чотирма основними показниками цінності дослідницьких звітів — всебічність, проникливість, відповідність інструкціям і читабельність — Qianfan DeepResearch Agent демонструє лідерські позиції в галузі.

Зараз DeepResearch стає ключовим розмежувальним моментом у еволюції штучного інтелекту. На відміну від традиційного генерації тексту, завдання глибокого дослідження вимагає від системи здатності самостійно виконувати багатоступінчасті, ітеративні когнітивні задачі, охоплюючи весь процес від розуміння складних потреб, збору широкої інформації до глибокого аналізу та інсайтів. Агент для глибоких досліджень вже широко застосовується у наукових оглядах, фінансових дослідженнях, бізнес-аналітиці та інших сферах, скорочуючи час дослідження з кількох днів до кількох хвилин і значно підвищуючи ефективність досліджень і прийняття рішень.

Як «золотий стандарт» оцінки можливостей цієї передової галузі, DeepResearch Bench заповнює прогалину у загальних оцінках AI щодо кінцевих завдань глибокого дослідження. Існуючі бенчмарки здебільшого зосереджені на окремих можливостях і не охоплюють складність довготривалого логічного мислення та пошуку. Цей рейтинг був розроблений експертами у галузі та містить 100 дослідницьких завдань рівня докторських досліджень, охоплюючи 22 дисципліни, а також впроваджує рамки оцінки якості звітів RACE та оцінки точності цитувань. Це найжорсткіша та найреальніша система оцінки продуктивності DeepResearch Agent у світі.

Qianfan DeepResearch Agent вдалося виділитися у цьому рейтингу завдяки високій технічній реалізації. Він використовує архітектуру Agentic, яка реалізує цикл «розуміння завдання — планування — виконання» для кінцевого дослідження, базуючись на пошукових технологіях Baidu та RAG для забезпечення широти, достовірності та релевантності інформації. Два ключові елементи дизайну забезпечують точність виконання завдань: по-перше, застосування підходу «від грубого до точного» для подолання невизначеності завдання; по-друге, динамічне планування шляхів дослідження та механізм рефлексії в реальному часі дозволяють системі оцінювати прогрес на кожному етапі, коригувати стратегію, уникати галюцинацій і відхилень від маршруту, а також забезпечувати високоякісне виконання складних досліджень.

Крім того, на етапі генерації звітів Qianfan DeepResearch Agent використовує двоступеневий механізм рендерингу: спочатку створюється базовий звіт (pivot report), що забезпечує логічну послідовність і всебічність за рахунок покращених можливостей логічного виведення; потім за допомогою різних інструментів рендерингу з базового звіту формуються кінцеві документи у форматах markdown, html, ppt та інших, що дозволяє отримати «один дослідження — багато форматових звітів».

Зараз цей агент для глибоких досліджень вже доступний на платформі Baidu Qianfan. Користувачі можуть просто ввести складний запит на дослідження, і система за кілька хвилин створить професійний звіт із посиланнями, що дозволяє отримати глибокі інсайти у режимі «хвилин».

Це досягнення є яскравим підтвердженням потужності інфраструктури Baidu Qianfan Agent Infra. Вона надає комплексні послуги з розробки моделей, інструментів, агентів, даних та середовищ виконання агентів. Платформа вже розробила понад 130 000 агентів, а щоденний обсяг викликів інструментів, таких як «Baidu AI Search», перевищує десятки мільйонів.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.