百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench-AI云资讯

2月4日消息，深度研究智能体权威评测榜单DeepResearch Bench公布最新结果，百度千帆深度研究Agent（Qianfan-DeepResearch Pro）凭借卓越的端到端研究能力和极高的报告产出质量，登上测评榜单榜首。在衡量研究报告含金量的四大核心维度——全面性、洞察力、指令遵循度和可读性上，千帆深度研究Agent均实现了行业领先。

当前，深度研究（DeepResearch）正成为人工智能进化的关键分水岭。不同于传统文本生成，深度研究任务要求系统能够像人类专家一样，自主执行多步骤、可迭代的认知任务，涵盖了从复杂需求理解、广泛信息获取到深度洞察产出的全过程。深度研究Agent目前已广泛应用于学术综述、金融投研、商业分析等领域，能够将传统需数日的手动研究工作压缩至分钟级完成，显著提升研究与决策效率。

作为评价这一前沿赛道能力的“金标准”，DeepResearch Bench填补了通用 AI 评测在端到端深度研究任务上的空白。现有的Benchmark多聚焦于单一能力，难以覆盖长程推理与检索合成的复杂性。该榜单由领域专家设计了100个博士级别的研究任务，覆盖22个学科，并引入RACE报告质量评价框架与引文准确性评估，是目前全球范围内衡量 DeepResearch Agent生产力水平最硬核、最真实的评价体系。

千帆深度研究Agent能够在此次评测中脱颖而出，得益于优异的技术设计，它采用Agentic架构，通过“任务理解-规划-执行”循环机制实现端到端研究交付，依托百度搜索与RAG技术保障信息获取的广度、可信度与相关性。两大重要设计确保了任务执行的准确性，首先采用“由粗到细”的研究路径展开方式应对任务不确定性；其次，通过深度执行路径规划与实时反思机制，系统能在每个研究节点动态评估进展、调整策略，从而有效避免幻觉与路径偏离，并确保复杂研究任务的高质量完成。

此外，在报告生成阶段，千帆深度研究Agent采用独立的两阶段报告渲染机制：首先产出pivot报告，通过优化相关推理能力，来保证逻辑一致性和内容全面性；之后使用不同的渲染工具，基于pivot报告渲染出最终的markdown、html、ppt等多形态报告，从而实现“一次研究，多形态报告”的交付。

目前，该深度研究Agent已上线百度千帆平台，用户只需输入复杂调研需求，系统即可在十几分钟内生成带引用的专业级研究报告，真正实现“分钟级”的深度洞察交付。

此次登榜是百度千帆 Agent Infra强大支撑能力的集中体现。千帆 Agent Infra提供模型、工具、Agent开发、数据及Agent运行环境等一站式开发服务。平台已累计开发超130万个Agents，以百度独家能力“百度AI搜索”为代表的工具日均调用量已突破数千万次。

百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术