2月4日、深層研究エージェント向けの権威評価リストであるDeepResearch Benchが最新結果を発表し、百度千帆深層研究エージェント(Qianfan-DeepResearch Pro)が卓越したエンドツーエンドの研究能力と非常に高い報告書の品質により、評価リストのトップに立ちました。研究報告書の価値を測る4つの主要な指標—包括性、洞察力、指示遵守度、可読性—において、千帆深掘り研究エージェントは業界をリードする成果を達成しています。現在、DeepResearchは人工知能の進化において重要な分岐点となりつつあります。従来のテキスト生成とは異なり、深層研究タスクはシステムが人間の専門家のように、多段階かつ反復的な認知作業を自律的に実行し、複雑な要求理解、広範な情報収集、深い洞察の生成までを全てカバーします。深層調査エージェントは現在、学術レビュー、金融投資調査、ビジネス分析などの分野で広く利用されており、従来数日かかっていた手動の研究作業を数分に短縮し、研究と意思決定の効率を大きく向上させています。この最先端の能力を評価する「ゴールドスタンダード」として、DeepResearch Benchは一般的なAI評価の枠組みではカバーしきれないエンドツーエンドの深層研究タスクのギャップを埋めています。既存のベンチマークは多くが単一の能力に焦点を当てており、長距離推論や検索と合成を組み合わせた複雑なタスクの評価には不十分です。このリストは、22の学問分野をカバーする100の博士レベルの研究課題を設計したドメインの専門家によって作成されており、RACEレポート品質評価フレームワークや引用の正確性評価を導入しています。これにより、世界で最も厳格かつ実情に即したDeepResearchエージェントの生産性を測る評価体系となっています。千帆深層研究エージェントがこの評価で優れた成績を収めたのは、優れた技術設計によるものです。エージェントはAgenticアーキテクチャを採用し、「タスク理解—計画—実行」のサイクルを通じてエンドツーエンドの研究を実現しています。百度の検索技術とRAG(Retrieval-Augmented Generation)を活用し、情報の広さ、信頼性、関連性を確保しています。二つの重要な設計ポイントにより、タスクの正確な遂行を可能にしています。第一に、「粗い段階から詳細な段階へ」といった研究経路を採用し、タスクの不確実性に対応。第二に、深度のある実行経路の計画とリアルタイムの反省メカニズムにより、各研究段階で進捗を動的に評価し、戦略を調整します。これにより、幻覚や経路の逸脱を効果的に防ぎ、複雑な研究課題を高品質に完了させることができます。さらに、レポート生成の段階では、千帆深層研究エージェントは独立した二段階のレポートレンダリング機構を採用しています。まず、推論能力を最適化したピボットレポートを生成し、論理の一貫性と内容の網羅性を確保します。その後、異なるレンダリングツールを用いて、ピボットレポートを基にMarkdown、HTML、PPTなど多様な形式の最終レポートを作成し、「一つの研究から多様なレポートを」提供します。現在、この深層研究エージェントは百度千帆プラットフォーム上で公開されており、ユーザーは複雑な調査要求を入力するだけで、引用付きの専門レベルの研究報告書を10分以内に生成可能です。これにより、「分単位」の深い洞察の提供を実現しています。この評価リストへの掲載は、百度千帆エージェントインフラの強力な支援能力の証左です。千帆エージェントインフラは、モデル、ツール、エージェント開発、データ、実行環境などを一元的に提供するサービスを展開しています。これまでに130万以上のエージェントを開発し、百度独自の「百度AI検索」などのツールは、1日あたり数千万回の呼び出しを超えています。
百度千帆深度研究:エージェントの登頂権威評価ランキング DeepResearch Bench
2月4日、深層研究エージェント向けの権威評価リストであるDeepResearch Benchが最新結果を発表し、百度千帆深層研究エージェント(Qianfan-DeepResearch Pro)が卓越したエンドツーエンドの研究能力と非常に高い報告書の品質により、評価リストのトップに立ちました。研究報告書の価値を測る4つの主要な指標—包括性、洞察力、指示遵守度、可読性—において、千帆深掘り研究エージェントは業界をリードする成果を達成しています。
現在、DeepResearchは人工知能の進化において重要な分岐点となりつつあります。従来のテキスト生成とは異なり、深層研究タスクはシステムが人間の専門家のように、多段階かつ反復的な認知作業を自律的に実行し、複雑な要求理解、広範な情報収集、深い洞察の生成までを全てカバーします。深層調査エージェントは現在、学術レビュー、金融投資調査、ビジネス分析などの分野で広く利用されており、従来数日かかっていた手動の研究作業を数分に短縮し、研究と意思決定の効率を大きく向上させています。
この最先端の能力を評価する「ゴールドスタンダード」として、DeepResearch Benchは一般的なAI評価の枠組みではカバーしきれないエンドツーエンドの深層研究タスクのギャップを埋めています。既存のベンチマークは多くが単一の能力に焦点を当てており、長距離推論や検索と合成を組み合わせた複雑なタスクの評価には不十分です。このリストは、22の学問分野をカバーする100の博士レベルの研究課題を設計したドメインの専門家によって作成されており、RACEレポート品質評価フレームワークや引用の正確性評価を導入しています。これにより、世界で最も厳格かつ実情に即したDeepResearchエージェントの生産性を測る評価体系となっています。
千帆深層研究エージェントがこの評価で優れた成績を収めたのは、優れた技術設計によるものです。エージェントはAgenticアーキテクチャを採用し、「タスク理解—計画—実行」のサイクルを通じてエンドツーエンドの研究を実現しています。百度の検索技術とRAG(Retrieval-Augmented Generation)を活用し、情報の広さ、信頼性、関連性を確保しています。二つの重要な設計ポイントにより、タスクの正確な遂行を可能にしています。第一に、「粗い段階から詳細な段階へ」といった研究経路を採用し、タスクの不確実性に対応。第二に、深度のある実行経路の計画とリアルタイムの反省メカニズムにより、各研究段階で進捗を動的に評価し、戦略を調整します。これにより、幻覚や経路の逸脱を効果的に防ぎ、複雑な研究課題を高品質に完了させることができます。
さらに、レポート生成の段階では、千帆深層研究エージェントは独立した二段階のレポートレンダリング機構を採用しています。まず、推論能力を最適化したピボットレポートを生成し、論理の一貫性と内容の網羅性を確保します。その後、異なるレンダリングツールを用いて、ピボットレポートを基にMarkdown、HTML、PPTなど多様な形式の最終レポートを作成し、「一つの研究から多様なレポートを」提供します。
現在、この深層研究エージェントは百度千帆プラットフォーム上で公開されており、ユーザーは複雑な調査要求を入力するだけで、引用付きの専門レベルの研究報告書を10分以内に生成可能です。これにより、「分単位」の深い洞察の提供を実現しています。
この評価リストへの掲載は、百度千帆エージェントインフラの強力な支援能力の証左です。千帆エージェントインフラは、モデル、ツール、エージェント開発、データ、実行環境などを一元的に提供するサービスを展開しています。これまでに130万以上のエージェントを開発し、百度独自の「百度AI検索」などのツールは、1日あたり数千万回の呼び出しを超えています。