百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
2026-02-05 09:11:34AI云资讯9450
2月4日消息,深度研究智能体权威评测榜单DeepResearch Bench公布最新结果,百度千帆深度研究Agent(Qianfan-DeepResearch Pro)凭借卓越的端到端研究能力和极高的报告产出质量,登上测评榜单榜首。在衡量研究报告含金量的四大核心维度——全面性、洞察力、指令遵循度和可读性上,千帆深度研究Agent均实现了行业领先。

当前,深度研究(DeepResearch)正成为人工智能进化的关键分水岭。不同于传统文本生成,深度研究任务要求系统能够像人类专家一样,自主执行多步骤、可迭代的认知任务,涵盖了从复杂需求理解、广泛信息获取到深度洞察产出的全过程。深度研究Agent目前已广泛应用于学术综述、金融投研、商业分析等领域,能够将传统需数日的手动研究工作压缩至分钟级完成,显著提升研究与决策效率。
作为评价这一前沿赛道能力的“金标准”,DeepResearch Bench填补了通用 AI 评测在端到端深度研究任务上的空白。现有的Benchmark多聚焦于单一能力,难以覆盖长程推理与检索合成的复杂性。该榜单由领域专家设计了100个博士级别的研究任务,覆盖22个学科,并引入RACE报告质量评价框架与引文准确性评估,是目前全球范围内衡量 DeepResearch Agent生产力水平最硬核、最真实的评价体系。
千帆深度研究Agent能够在此次评测中脱颖而出,得益于优异的技术设计,它采用Agentic架构,通过“任务理解-规划-执行”循环机制实现端到端研究交付,依托百度搜索与RAG技术保障信息获取的广度、可信度与相关性。两大重要设计确保了任务执行的准确性,首先采用“由粗到细”的研究路径展开方式应对任务不确定性;其次,通过深度执行路径规划与实时反思机制,系统能在每个研究节点动态评估进展、调整策略,从而有效避免幻觉与路径偏离,并确保复杂研究任务的高质量完成。
此外,在报告生成阶段,千帆深度研究Agent采用独立的两阶段报告渲染机制:首先产出pivot报告,通过优化相关推理能力,来保证逻辑一致性和内容全面性;之后使用不同的渲染工具,基于pivot报告渲染出最终的markdown、html、ppt等多形态报告,从而实现“一次研究,多形态报告”的交付。
目前,该深度研究Agent已上线百度千帆平台,用户只需输入复杂调研需求,系统即可在十几分钟内生成带引用的专业级研究报告,真正实现“分钟级”的深度洞察交付。
此次登榜是百度千帆 Agent Infra强大支撑能力的集中体现。千帆 Agent Infra提供模型、工具、Agent开发、数据及Agent运行环境等一站式开发服务。平台已累计开发超130万个Agents,以百度独家能力“百度AI搜索”为代表的工具日均调用量已突破数千万次。
相关文章
- 百度一镜升级,数字人进入“全场景+全球化”时代
- 百度智能云升级百度一见视觉智能体平台:内置1000+专业视觉Skills,可自主进化
- 百度智能云发起智慧养老产业联盟,8家企业首批加入
- 百度Create2026:AI Agent走进家庭,小度给出落地样本
- L4级自动驾驶车辆驶入中国农业大学 百度Apollo星火计划再落一子
- 百度百科20周年沙龙致敬百万UGC用户:让3000万+词条成为时代的知识方舟
- AI生万象,灵感疯长——百度百家号AI创作者漫谈大会圆满落幕
- 2026百度创作者大会:AI引擎赋能创作 共生共筑新生态
- 领跑中国乘用车NOA辅助驾驶地图市场份额 百度地图实力亮相2026北京车展
- 百度百科“繁星计划”再加码,投入2000万基金激励权威内容建设
- 行业首发!鸿蒙版雅迪智行App深度集成百度地图SDK,上线投屏导航,实现“抬头骑行,眼不离路”
- 百度APP用户数据再攀升:主动日活用户同比增长1.6倍、创作者规模同比增长近3成
- 行业首家!百度地图×雅迪首发支持鸿蒙投屏导航,两轮车智慧出行迈入“鸿蒙时代”
- 百度联盟启动“星云计划”:全面开放猎户座AI引擎
- 百度漫剧携手火星时代教育共建AI漫剧创作基地,打造漫剧研学产一站式生态
- 全域全场景覆盖、规模化量产领先 百度地图车道级SR导航登陆零跑D19
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









