Baidu Qianfan nghiên cứu sâu về Agent đứng đầu bảng xếp hạng đánh giá uy tín DeepResearch Bench

K-LinePoet

2026-02-04 09:41:02

Đang tạo bản tóm tắt

2 tháng 2消息, nghiên cứu sâu về bảng xếp hạng đánh giá uy tín DeepResearch Bench công bố kết quả mới nhất, Baidu Thiên Phàm Nghiên Cứu Sâu Agent (Qianfan-DeepResearch Pro) nhờ khả năng nghiên cứu từ đầu đến cuối xuất sắc và chất lượng báo cáo cực cao, đã đứng đầu bảng xếp hạng. Trong bốn tiêu chí cốt lõi đánh giá giá trị của báo cáo nghiên cứu — toàn diện, insight, tuân thủ chỉ thị và dễ đọc — Thiên Phàm Nghiên Cứu Sâu Agent đều đạt vị trí dẫn đầu ngành.

Hiện tại, nghiên cứu sâu (DeepResearch) đang trở thành bước ngoặt quan trọng trong quá trình tiến hóa của trí tuệ nhân tạo. Khác với việc tạo văn bản truyền thống, nhiệm vụ nghiên cứu sâu yêu cầu hệ thống có khả năng tự thực hiện các nhiệm vụ nhận thức đa bước, có thể lặp lại như các chuyên gia, bao gồm từ hiểu nhu cầu phức tạp, thu thập thông tin rộng rãi đến tạo ra những insight sâu sắc. Agent nghiên cứu sâu hiện đã được ứng dụng rộng rãi trong các lĩnh vực tổng quan học thuật, đầu tư tài chính, phân tích kinh doanh, giúp rút ngắn thời gian nghiên cứu thủ công từ nhiều ngày xuống còn vài phút, nâng cao hiệu quả nghiên cứu và ra quyết định rõ rệt.

Là “tiêu chuẩn vàng” đánh giá năng lực trong lĩnh vực tiên phong này, DeepResearch Bench đã lấp đầy khoảng trống trong đánh giá AI chung về các nhiệm vụ nghiên cứu sâu từ đầu đến cuối. Các benchmark hiện tại chủ yếu tập trung vào khả năng đơn lẻ, khó có thể bao quát các phức tạp của suy luận dài hạn và tổng hợp truy vấn. Bảng xếp hạng này do các chuyên gia trong lĩnh vực thiết kế gồm 100 nhiệm vụ nghiên cứu cấp tiến sĩ, bao phủ 22 ngành học, đồng thời giới thiệu khung đánh giá chất lượng báo cáo RACE và đánh giá độ chính xác trích dẫn, là hệ thống đánh giá toàn cầu cứng cáp và chân thực nhất hiện nay về năng suất của Agent nghiên cứu sâu.

Thiên Phàm Nghiên Cứu Sâu có thể nổi bật trong kỳ đánh giá này nhờ thiết kế kỹ thuật xuất sắc, sử dụng kiến trúc Agentic, qua cơ chế vòng lặp “hiểu nhiệm vụ - lập kế hoạch - thực thi” để thực hiện nghiên cứu từ đầu đến cuối, dựa trên công nghệ tìm kiếm của Baidu và RAG để đảm bảo độ rộng, độ tin cậy và tính liên quan của thông tin. Hai thiết kế quan trọng giúp đảm bảo độ chính xác trong thực thi nhiệm vụ, đầu tiên là sử dụng phương pháp “từ sơ đến chi tiết” để xử lý tính không chắc chắn của nhiệm vụ; thứ hai, qua lập kế hoạch đường đi thực thi sâu và cơ chế phản hồi theo thời gian thực, hệ thống có thể đánh giá tiến trình, điều chỉnh chiến lược tại từng nút nghiên cứu, từ đó tránh các ảo giác và lệch đường đi, đảm bảo hoàn thành nhiệm vụ nghiên cứu phức tạp với chất lượng cao.

Ngoài ra, trong giai đoạn tạo báo cáo, Thiên Phàm Nghiên Cứu Sâu sử dụng cơ chế render báo cáo hai giai đoạn độc lập: đầu tiên tạo ra báo cáo pivot, qua việc tối ưu khả năng suy luận liên quan để đảm bảo tính logic nhất quán và toàn diện nội dung; sau đó dùng các công cụ render khác nhau, dựa trên báo cáo pivot để tạo ra các dạng báo cáo cuối cùng như markdown, html, ppt, giúp thực hiện “một lần nghiên cứu, nhiều dạng báo cáo” để bàn giao.

Hiện tại, Agent nghiên cứu sâu này đã ra mắt trên nền tảng Baidu Thiên Phàm, người dùng chỉ cần nhập yêu cầu khảo sát phức tạp, hệ thống có thể trong vòng mười phút tạo ra báo cáo nghiên cứu chuyên nghiệp có trích dẫn, thực sự đạt được “phút” để cung cấp insight sâu sắc.

Việc đứng trong bảng xếp hạng lần này là minh chứng cho khả năng hỗ trợ mạnh mẽ của Baidu Thiên Phàm Agent Infra. Thiên Phàm Agent Infra cung cấp dịch vụ phát triển một cửa gồm mô hình, công cụ, phát triển Agent, dữ liệu và môi trường vận hành Agent. Nền tảng đã phát triển hơn 130 vạn Agents, với công cụ “Baidu AI Search” độc quyền của Baidu, trung bình mỗi ngày gọi hơn chục triệu lần.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.