端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
2026-03-19 20:08:08AI云资讯6411
今天,百度千帆正式发布全新端到端文档智能模型Qianfan-OCR。
该模型基于统一的视觉语言架构打造,以4B参数规模实现了对文档解析、版面分析、文字识别与语义理解的全面融合,在多项权威评测中取得领先表现,标志着文档智能能力正从“流程拼接”迈向“模型统一”的新阶段。
在核心Benchmark中,Qianfan-OCR表现尤为突出:在OmniDocBench v1.5上取得93.12分,端到端模型中位列第一;OCRBench远高于同尺寸通用VL模型和专用OCR模型;KIE(Key Information Extraction)在多个公开榜单的总和成绩超过Google Gemini 3-Pro等商用模型。

进一步来看,在图表理解等复杂任务中,端到端模型的优势更加明显。Qianfan-OCR在ChartQA、ChartBench等关键评测中表现领先,在6项任务中拿下5项最佳成绩,充分体现其在复杂结构理解与多模态推理上的能力优势。
这一结果的核心原因在于传统Pipeline在文本提取过程中往往会丢失空间结构与视觉上下文信息,从而限制了对图表与复杂文档的理解能力;而端到端模型能够完整保留视觉信息,使模型在结构理解与推理任务中具备更高的一致性与准确性。
整体来看,Qianfan-OCR在文档解析与理解一体化能力上的领先表现,进一步验证了端到端技术路线的可行性与先进性。目前,Qianfan-OCR已在千帆平台上线,并同步在HuggingFace开源模型权重,面向开发者与企业用户开放使用。
论文:
https://arxiv.org/abs/2603.13398
千帆平台:
https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/detail/am-52d29fea1063
HuggingFace:
https://huggingface.co/baidu/Qianfan-OCR
GitHub:
https://github.com/baidubce/Qianfan-VL
Qianfan-OCR文档智能skills:
https://github.com/baidubce/skills/tree/develop/skills/qianfanocr-document-intelligence
一个模型
重构文档智能能力边界
长期以来,工业级OCR系统大多沿用“检测—识别—理解”的三段式Pipeline架构:先通过检测模型定位版面元素,再由识别模型提取文本内容,最终借助大模型完成语义理解。这一模式在工程实践中已经非常成熟,但其本质仍是多阶段串联的处理流程。
随着文档形态日益复杂,这种架构的局限性也逐渐显现。一方面,多阶段处理带来的误差会在链路中不断放大,影响最终结果的稳定性;另一方面,文本在被逐块提取的过程中,原有的空间结构与视觉上下文被打散,使得图表、表格等复杂内容的理解能力受到限制。同时,多模型协同运行也显著增加了系统部署与运维的复杂度。
在这一背景下,Qianfan-OCR从底层架构出发进行了重构。通过统一的端到端视觉语言模型,系统可以直接从文档图像生成结构化结果,跳过传统的多阶段拆分流程,实现从“看见文档”到“理解文档”的一步完成。这一转变不仅大幅简化了技术链路,也为文档智能能力的提升提供了一条更高效、更一致的实现路径。
核心突破:
让模型具备
“版面理解能力”

在端到端模型的演进过程中,一个核心挑战在于如何弥补传统Pipeline天然具备的版面分析能力。相比多阶段架构中显式的检测与结构解析过程,端到端模型往往缺乏对版面结构的直接建模能力。
针对这一问题,Qianfan-OCR提出了Layout-as-Thought机制,将版面理解能力内化为模型推理过程的一部分。在生成最终结果之前,模型通过<think>token进入“思考阶段”,先对文档结构进行显式建模,生成包括元素位置、类型以及阅读顺序在内的结构化信息,随后再完成整体解析输出。
这一设计使模型在统一框架下同时具备结构感知与语义理解能力。一方面在端到端架构中补齐了版面分析这一关键能力;另一方面通过引入结构先验信息,有效提升了复杂文档场景下的解析准确性与稳定性。
因此在多栏排版、复杂表格以及非标准阅读顺序等典型复杂场景中,Qianfan-OCR能够表现出更强的鲁棒性与一致性。此外在部署效率上,单张A100 GPU,W8A8量化,吞吐量达1.024页/秒;相比pipeline系统需要CPU做检测+GPU做识别+GPU做LLM的异构编排,Qianfan-OCR只需一个vLLM实例。
从OCR到文档智能:
范式正在发生变化
Qianfan-OCR的发布,不仅是一次模型能力的升级,更体现了文档处理技术路径的演进:从多模型拼接的流程式架构走向统一建模的端到端范式。这一变化使文档智能从“工具能力”进一步演进为“系统能力”,也为企业级应用提供了更高效、更稳定的技术基础。
同时,Qianfan-OCR模型已在GitHub发布配套skills,用户可自行下载使用,为自己的小龙虾“加点技能”,轻松实现文档转化与理解。
未来,百度千帆将持续推进多模态模型在产业场景中的落地应用,推动AI能力在更广泛行业中释放价值。
相关文章
- L4级自动驾驶车辆驶入中国农业大学 百度Apollo星火计划再落一子
- 百度百科20周年沙龙致敬百万UGC用户:让3000万+词条成为时代的知识方舟
- AI生万象,灵感疯长——百度百家号AI创作者漫谈大会圆满落幕
- 2026百度创作者大会:AI引擎赋能创作 共生共筑新生态
- 领跑中国乘用车NOA辅助驾驶地图市场份额 百度地图实力亮相2026北京车展
- 百度百科“繁星计划”再加码,投入2000万基金激励权威内容建设
- 行业首发!鸿蒙版雅迪智行App深度集成百度地图SDK,上线投屏导航,实现“抬头骑行,眼不离路”
- 百度APP用户数据再攀升:主动日活用户同比增长1.6倍、创作者规模同比增长近3成
- 行业首家!百度地图×雅迪首发支持鸿蒙投屏导航,两轮车智慧出行迈入“鸿蒙时代”
- 百度联盟启动“星云计划”:全面开放猎户座AI引擎
- 百度漫剧携手火星时代教育共建AI漫剧创作基地,打造漫剧研学产一站式生态
- 全域全场景覆盖、规模化量产领先 百度地图车道级SR导航登陆零跑D19
- 百度地图重磅发布Map Agent Plan:让每一只“龙虾”都能畅行物理世界
- 百度地图与零跑汽车合作,树立智能出行新里程碑!
- 百度地图亮相“来华通”推介会:AI重构入境游出行体验,让全球游客畅行无忧
- 天数智芯Day 0原生适配百度文心ERNIE-Image ,AI算力+开源文生图共筑AIGC新生态
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









