讯飞星火V3.5春季上新,科大讯飞首发星火图文识别大模型
2024-04-29 20:29:56AI云资讯1472
4 月 26 日,科大讯飞发布讯飞星火 V3.5 更新版本,首发星火图文识别大模型,赋予大模型感知现实世界的能力。这标志着国产大模型在支持图文输入领域的一次重要突破。
事实上,尽管先进的大模型在语言交互方面展现出了卓越的能力,但它们在图文识别领域的表现却不尽如人意。去年10月,华南理工大学针对此前发布的 GPT-4Vision做了一篇全面评测,结论是 GPT-4Vsion识别文字的能力比 OCR专用模型低了几十个点,尤其在手写中文文本识别中表现出明显的幻觉问题。
国内多数面向 C 端的大模型应用产品较少具备图文识别能力。一家头部国产大模型应用的拍照识别功能仅支持“搜题”,无法在更多场景下使用。一些大模型应用甚至根本没有拍照选项,用户仅能通过输入文本与大模型交互。
然而,在日常工作和学习中,人们接触到的信息并不局限于纯文本。纸质合同、会议PPT、工作纪要等资料,如何才能让大模型帮助我们进行分析和整理呢?
讯飞星火通过其图文识别大模型,旨在从根本上解决这一问题。星火图文识别大模型具备对复杂板面的高精度解析,融合篇章语义的文字识别功能,以及覆盖多领域的专业符号识别等特点。借助该技术,讯飞星火可以实现对多媒体信息的深入理解,显著提高用户获取知识和学习的效率。无论是会议纪要、说明书、报纸还是书籍,都可以通过拍照快速得到大模型的识别与理解。
科大讯飞董事长刘庆峰说,经过多年积累,科大讯飞屡次在国际的图文识别、公式识别中获得大赛第一,为讯飞星火图文识别大模型的推出奠定了基础。

例如,科大讯飞针对大部分特定场景的图文识别做了专门优化,覆盖了书籍、学术论文、报纸、体检报告、PPT 等 31 个工作生活中最常见的典型场景,并针对其中最常见的 18 个板面要素进行优化,可实现对诸如页眉、页脚、标题、表格等要素的快速识别和处理,甚至针对复杂的公式、印章、二维码以及手写等元素也能准确识别。

刘庆峰还介绍说,在英文公开测试集的图文识别效果对比中,星火图文识别大模型领先微软、Google 等国际产品 6 个百分点。在诸如科研、金融、产品文档等典型应用场景的图文识别效果对比中,星火图文识别大模型均实现对目前公认实力最强的 GPT-4V 的超越。

星火图文识别大模型的加入,相当于给讯飞星火装上了一双“眼睛”。现实生活中看到不明白的内容,随手一拍就能求助大模型。一份报纸信息过多,一键拍照让大模型来帮你整理要点,获取知识的门槛和便利程度都大大提高。签订的租房合同看不出漏洞,拍给大模型一键帮你指出风险条款,让你也能化身法律专家。
越来越多的从业者已经认识到,多模态能力将是未来衡量大模型可用性、易用性的重要指标。视觉作为多模态能力的最重要的一环,可以帮助大模型实现从单纯的文本能力到感知物理世界的巨大飞跃,为未来大模型应用提供了更大的想象空间。
根据国家互联网信息办公室,截至今年 3 月,中国已备案的大模型已经达 117 家。预计在不远的将来,越来越多的国产大模型将致力于多模态内容的开发,使大模型技术真正融入人们的日常工作和学习中。
相关文章
- 科大讯飞发布玲珑Agent OS,让AI真正走进企业核心业务流
- 2026中国翻译协会年会召开,科大讯飞携多语言AI翻译产品矩阵亮相并获评5A级企业认证
- 科大讯飞佛山人工智能产业基地正式启用,助力南海构建AI产业生态
- 科大讯飞重磅布局智能穿戴,讯飞AI眼镜开启跨语言沟通新时代
- 科大讯飞AstronClaw升级,引领AI Agent从对话走向执行
- 科大讯飞亮相2026联合国中文日,让语言无界,让文化共鸣
- 打造办公新模式,科大讯飞三大核心“AI+办公”大模型在成都发布
- 科大讯飞AIPC华东制造基地正式投产,软硬智造一体出场即“数字员工”
- 科大讯飞与苏移集成签署战略合作协议,共推具身智能产业升级
- 从硬件集成到软核共研,科大讯飞与北京人形机器人创新中心深化合作
- 科大讯飞与金光集团签约战略合作,携手推动印尼人工智能转型
- MWC 2026 | 科大讯飞全球首发AI眼镜,多款AI产品全新升级
- 科大讯飞AI学习机T90系列重磅发布,开启个性化学习新时代
- 科大讯飞携手天津河西区:探路“人民城市”数字底座,为基层减负增效
- 科大讯飞ANYPIN获2026德国iF设计奖,以隐形科技重塑AI录音新体验
- 科大讯飞将亮相MWC2026,推动安全、可部署AI走向全球行业
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









