Baidu Qianfan investigación profunda Agent encabeza la lista de evaluación autorizada DeepResearch Bench

robot
Generación de resúmenes en curso

2 de febrero de 2024, noticias, la evaluación autoritativa de agentes inteligentes DeepResearch Bench publicó los resultados más recientes. El agente de investigación profunda de Baidu Qianfan (Qianfan-DeepResearch Pro), gracias a su excelente capacidad de investigación de extremo a extremo y a la alta calidad de los informes producidos, se ubicó en la cima de la lista de evaluación. En las cuatro dimensiones clave que miden la calidad de los informes de investigación — exhaustividad, visión, cumplimiento de instrucciones y legibilidad —, el agente de investigación profunda de Qianfan logró liderar la industria.

Actualmente, la investigación profunda (DeepResearch) se está convirtiendo en un punto de inflexión clave en la evolución de la inteligencia artificial. A diferencia de la generación de texto tradicional, las tareas de investigación profunda requieren que el sistema pueda realizar de manera autónoma tareas cognitivas de múltiples pasos y de carácter iterativo, abarcando desde la comprensión de necesidades complejas, la adquisición de información amplia hasta la generación de insights profundos. El agente de investigación profunda ya se aplica ampliamente en revisiones académicas, investigación financiera, análisis empresarial y otros campos, pudiendo reducir trabajos manuales que normalmente toman días a minutos, mejorando significativamente la eficiencia en investigación y toma de decisiones.

Como el “estándar de oro” para evaluar las capacidades en esta frontera, DeepResearch Bench llena el vacío en la evaluación de IA general en tareas de investigación profunda de extremo a extremo. Los benchmarks existentes se centran en habilidades individuales, dificultando la evaluación de la razonación a largo plazo y la síntesis mediante recuperación. Esta lista fue diseñada por expertos en la materia con 100 tareas de investigación a nivel de doctorado, cubriendo 22 disciplinas, e incluye el marco de evaluación de calidad de informes RACE y la precisión en citas, siendo actualmente el sistema de evaluación más riguroso y realista a nivel mundial para medir la productividad de los agentes de DeepResearch.

El agente de investigación profunda de Qianfan pudo destacar en esta evaluación gracias a su excelente diseño técnico. Utiliza una arquitectura Agentic, mediante un ciclo de “comprensión de tareas - planificación - ejecución” para lograr entregas de investigación de extremo a extremo, apoyándose en la búsqueda de Baidu y en la tecnología RAG para garantizar la amplitud, confiabilidad y relevancia de la información. Dos aspectos clave aseguran la precisión en la ejecución: primero, un enfoque de investigación “de lo general a lo específico” para manejar la incertidumbre de las tareas; segundo, la planificación de rutas de ejecución profunda y mecanismos de reflexión en tiempo real, que permiten evaluar y ajustar dinámicamente el progreso en cada etapa, evitando alucinaciones y desviaciones, y asegurando la alta calidad en tareas complejas.

Además, en la fase de generación de informes, el agente de investigación profunda de Qianfan emplea un mecanismo de renderizado de informes en dos etapas: primero, produce un informe pivot, optimizando las capacidades de razonamiento relacionadas para garantizar coherencia lógica y exhaustividad; luego, usando diferentes herramientas de renderizado, genera informes en múltiples formatos como markdown, html y ppt, logrando una entrega “de una investigación, múltiples formatos”.

Actualmente, este agente de investigación profunda ya está en línea en la plataforma Baidu Qianfan. Los usuarios solo necesitan ingresar requisitos complejos de investigación, y el sistema puede generar informes profesionales con citas en unos pocos minutos, logrando una entrega de insights profundos en “minutos”.

Esta clasificación refleja la fuerte capacidad de soporte de Baidu Qianfan Agent Infra. La infraestructura de agentes de Qianfan ofrece servicios integrados de desarrollo de modelos, herramientas, desarrollo de agentes, datos y entornos de ejecución. La plataforma ha desarrollado más de 1.3 millones de agentes, y las herramientas, como la búsqueda de IA exclusiva de Baidu, superan los millones de llamadas diarias.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)