AI拍照解题技术新突破,传音相关研究成果入选计算机视觉顶会CVPR 2026
2026-04-03 17:57:04AI云资讯2688
传音持续深化AI领域的产学研协同,积极推动与国内外知名高校的深度合作,围绕AI视觉、语音、语言与大模型等方向推进协同创新。日前,传音TEX AI中心与中山大学、穆罕默德·本·扎耶德人工智能大学(Mohamed bin Zayed University of Artificial Intelligence,简称MBZUAI)联合开展的“拍照解题”项目研究取得重要进展,相关成果论文已被计算机视觉领域的国际顶级学术会议CVPR 2026正式录用。

CVPR是IEEE主办的计算机视觉与模式识别领域的顶级会议,是中国计算机学会(CCF)推荐的A类会议,它与ICCV、ECCV并称为计算机视觉领域“三大顶会”。据最新数据,CVPR2026共有逾三万人投稿,在进入评审流程的16,092篇有效文章中,最终接收率仅25.42%,每篇论文都必须通过3-5位全球顶尖专家的双盲评审。

近年来,AI大模型在逻辑推理与复杂问题求解方面的能力持续提升,但在实际应用中,其在复杂数学题上的处理表现仍存在不足。例如,解题结果正确但推理过程存在逻辑漏洞,或步骤看似完整但实际推导错误。这类问题在学习场景中尤为关键,相较于答案本身,推理过程的准确性更直接影响学生对知识的理解与掌握。
针对这一问题,传音TEX AI中心与中山大学、MBZUAI团队合作,开发了CARE(Contrastive Anchored REflection)技术,从训练机制上对传统路径进行了优化。不同于仅以“结果对错”作为反馈信号的方式,CARE技术将关注点前移到推理过程本身,重点引入“高质量错误样本”——即那些接近正确但存在关键步骤偏差的解题路径。通过将这类样本与标准解法进行对比分析,并结合反思式重推理机制,模型能够识别具体错误环节,并完成自我修正,从而形成更稳定、连贯的推理能力。在引入反思机制后,模型对复杂问题的二次推理成功率由约10%–19%提升至76.6%,有效增强了面对复杂题目时的稳定性。
此外,CARE技术还引入“救援机制”:即使多次尝试均未得到正确结果,系统仍会从已有错误路径中筛选出“相对最优解”,作为进一步学习的起点,使模型在复杂问题下仍能持续优化推理能力。

在实际效果上,该方法显著提升了模型的解题质量。在MathVista(图像数学推理)测试中,CARE准确率比传统方法的68.9%高13.2个百分点,提升至82.1%;在MMMU-Pro(多学科综合推理)测试中,CARE将准确率从36.4%提升至46.7%。整体来看,CARE 比传统方法平均提升 4.6 个百分点。
目前,该技术已进入产品化阶段,并逐步应用于传音手机智能助手中。基于CARE优化后的能力,传音手机智能助手拍照解题功能在输出结果时不仅能够提供答案,还能呈现更清晰、结构更完整的解题步骤,在面对多步骤推导问题时也更不容易出现逻辑中断或错误累积。这种“过程可解释”的能力,使AI从单纯的解题工具,进一步向“可辅助理解”的学习工具演进。
拍照解题是传音在 AI 教育应用上的重要方向。在非洲、南亚等地区,教育资源相对稀缺,部分家庭在课后辅导方面仍面临一定困难。传音推出的拍照解题功能为学生提供即时的解题思路与步骤解析,在一定程度上弥补学习支持资源的不足,帮助用户更高效地理解知识点,提升学习效率,让前沿科技真正服务于每个人的生活。
随着AI技术持续向真实场景渗透,AI已经成为理解用户需求、创造新体验的重要工具。传音积极将 AI 能力深度融入社交、出行、健康、教育等高频场景,让技术从“可用” 变为“真实可感”,实现用户的体验升级。此次联合研究成果的落地,也为AI在教育场景中的进一步应用提供了新的技术路径与实践基础。通过持续推进以用户需求为导向的技术创新,并深化与高校的协同研发,传音正不断将前沿AI能力转化为可落地的产品体验,让更多用户能够享受到AI带来的便利。
相关文章
- 从肯尼亚到印尼 传音控股“实用型AI”战略锚定高增长市场
- 从非洲到全球南方:传音本地化模式开花结果,新兴市场信赖再升级
- 传音入选“2026中国企业全球影响力100强”,本地化创新驱动全球影响力增长
- 传音控股领航非洲手机市场:逆势稳占47%,以普惠科技筑牢数字未来
- 传音TEX AI亮相CVPR 2026:联合复旦等机构组织PVUW Workshop,深化产学研协同创新
- 首个新兴市场专属移动 AI 智能体问世 传音控股本地化模式演进升级
- 以全球视野聚顶尖人才,传音控股构筑技术创新新动能
- 传音控股Q1净利增42.9% “中高端+实用AI”双轮驱动逆周期
- 未来智能完成亿元级A+轮融资,与传音合作打造下一代AI Agent硬件
- 亮相央视《商行天下》背后:传音为中国企业出海提供新样本
- 非洲数字新基建时代 传音如何让亿万用户跨越数字鸿沟?
- 传音控股出海新篇章:共创共享,融入新兴市场数字化浪潮
- 传音控股2025年报:非洲“大本营”根基深厚,本地化构筑品牌护城河
- AI拍照解题技术新突破,传音相关研究成果入选计算机视觉顶会CVPR 2026
- 端侧AI普惠落地 生态协同升级 传音控股AI技术布局成效凸显
- 聚焦场景化声学创新 传音控股筑牢新兴市场音频技术壁垒
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代









