中文大模型幻觉测评:豆包大模型准确率全球第一,超越DeepSeek-R1、Gemini-2.5、GPT-4o
2025-05-24 21:41:33AI云资讯4929
近日,根据SuperCLUE 发布的最新一轮中文大模型忠实性幻觉测评结果,豆包大模型1.5 Pro(Doubao-1.5-pro-32k)以仅4%的幻觉率、96%的准确率排名总榜第一,超越 DeepSeek-R1、DeepSeek-V3、Gemini-2.5-pro、GPT-4o-latest 等中外主流模型。

在涵盖文本摘要、多文本问答、对话补全等关键任务的细分评测中,豆包大模型1.5 Pro也均位列全球第一,在阅读理解任务中,其准确率则为国内最高,展现出在复杂语言理解与生成场景中的出色能力。

SuperCLUE 由独立第三方推出,是当前中文大语言模型评测的重要基准体系。其中 SuperCLUE-Faith 聚焦中文内容生成过程中的忠实性与幻觉控制能力,从文本摘要、阅读理解、多文本问答以及对话补全等角度展开测评,对象包括国内外共计16款具有代表性的模型,评估结果具备较强公信力与行业参考价值。
目前,豆包大模型家族已覆盖全模态、全场景,包括大语言模型、深度思考模型、视觉理解模型、语音大模型,以及图像、视频等视觉大模型,企业可以通过字节跳动旗下云服务平台火山引擎使用豆包大模型API服务。其中, 豆包大模型1.5 Pro 基于 MoE 架构构建并采用训练-推理一体化设计思路,在保证高性能的同时显著降低推理成本。通过激活有限参数实现对大规模场景的精准理解与生成,其综合性能已超过多款超大稠密预训练模型。
截至2025年3月底,豆包大模型日均 tokens 调用量已超过12.7万亿,是2024年12月的3倍,是一年前刚刚发布时的106倍。IDC 报告显示,2024年中国公有云大模型调用量激增,火山引擎以46.4%的市场份额位居中国市场第一。

据悉,火山引擎将于6月11日在北京举办FORCE原动力大会,将带来豆包大模型的最新升级进展与能力进化。
相关文章
- 中科闻歌重磅发布通用决策大模型Decitron决策机,内测邀请开启
- 端侧AI构筑“新丝路”:面壁智能大模型开源与端侧推理框架的出海实践
- 告别“数据枯竭”,迈向“价值坐标”——艺恩发布《全球大模型数据市场白皮书》
- 星辰大模型能力升级 天翼智铃推出30秒长视频动画制作
- 牧原携手阿里云共建养猪大模型 AI赋能传统产业升级
- 大模型落地“最后一公里“:Testin XAgent工程化评测实践
- 元戎 CEO 周光:大模型范式进入共识期,正在重构辅助驾驶行业
- 从ViP创新工艺到维擎垂域大模型,维信诺金砖论坛集中展示显示产业“中国方案”
- 卓世科技与戴盟机器人达成战略合作,共筑”行业大模型+具身智能”新生态
- 云工场科技推进CPU+GPU协同推理,推动大模型应用降本增效
- 东软添翼医疗大模型荣登“医疗AI大模型最具应用价值产品榜”
- 群核科技空间智能大模型完成国家备案,加速走向产业应用
- 破解大模型“幻觉”,徐剑军选择“可信”之道
- 携手共建“物理世界大模型”联合实验室,洞察时空与上海电信达成战略合作
- 东软添翼医疗大模型领跑 医疗AI进入“可信时代”
- 直接上智能体,还需要统一基座大模型吗?医院智能化走到十字路口
人工智能企业
更多>>人工智能硬件
更多>>- 海柔闪攀机器人双深位升级方案中国首秀!为超密存储和更高效率护航
- 技嘉于 COMPUTEX 2026 缔造 DDR5 世界纪录 勇夺10项全球超频冠军
- 上海智位机器人(DFRobot) 发布 seeMote Cap 与 seeMote Cube,帮助 Apple Vision Pro 开发者把真实工具带入 visionOS 应用
- 源自老牌科研院所积淀,默克蒂森全系列传感器与工控仪表赋能工业智造
- From AI, For AI:艾利特如何让机器人成为AI产业的“关键推动者”?
- 地表最强风冷,ROG玩家国度 枪神10 超竞版系列游戏本开售
- 双奖加冕丨深度探索协作焊接能力边界,珞石机器人亮相恰佩克盛会
- Shokz韶音举办2026运动嘉年华,开启「随我天生乐动」海边乐动假日
人工智能产业
更多>>人工智能技术
更多>>- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力









