《人工智能大模型体验报告2.0》出炉:讯飞星火夺冠,得分逼近人类
2023-08-15 15:22:01AI云资讯2034
今年以来,国内科技企业纷纷布局人工智能大模型。为进一步直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,8月12日,新华社研究院中国企业发展研究中心基于严格测评,发布《人工智能大模型体验报告2.0》,对当前国内各主流大模型的表现给出评述。

与2023年6月首次发布的《人工智能大模型体验报告》相比,本次测评在题目设计、对标Benchmark(人类)、打分权重、专家测评团队四大维度进行了全面升级。
其中,在题目设计方面,测评题目由300道扩展至500道,并进一步完善了题目分类;
在对标Benchmark方面,本次测评将接受过高等教育的人类作为对照,来考评大模型真实能力;
在打分标准上,本次测评根据对产业、生活的实际价值,对基础能力、智商能力、情商能力和工具提效四大测评维度进行了权重设计;
在测评团队方面,本次测评特邀北京大学文化与传播研究所及其他产界、学界专家全程参与。
本次研究设置了用户体验项目,抓取了7月31日—8月4日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。
报告显示,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。
具体来看,讯飞星火在工作提效、智商等方面优势明显,百度文心一言基础能力出色,商汤商量则在情商方面表现优秀,智谱AI-ChatGLM整体表现不俗。
归结到基础能力、智商能力、情商能力和工具提效四大维度综合得分上,科大讯飞星火表现最强,1013分,逼近人类水平(1014分),其次是百度文心一言和商汤商量,总分分别为1010分和983分。

报告认为,虽然在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。
据了解,此次测评总分第一的讯飞星火大模型发布于5月6日。并于6月9日发布星火1.5版本,与上一个版本相比,升级版不仅各项能力获得持续提升,且在综合能力上实现了三大升级:

开放式知识问答取得突破,提升24%,较好地解决了当前大模型技术有待攻克的“三大缺陷”:新知识难以更新、事实类问答容易“张冠李戴”、史实传统典籍等容易“编造情节”。
多轮对话跃迁,对话体验更接近真人;逻辑和数学能力明显提升。
特别是在数学能力,科大讯飞星火大模型不但能综合应用方程、排列组合、经典算法等各种数学方法,给出正确答案,而且能给出分析过程,让用户在“知其然”的同时,还能“知其所以然”。
除了大模型自身能力进一步提升外,讯飞星火1.5版发布会上,科大讯飞还正式发布了星火APP和星火语伴APP等C端产品,加上此前已和大模型融合的科大讯飞AI学习机、智能智能办公本、讯飞听见、汽车智能座舱语音交互和数字员工等产品,成为业内第一家实现大模型商业应用落地的公司。
受大模型加持带动,2023年5月至6月,科大讯飞C端硬件GMV创历史新高,同比翻倍增长。其中,搭载讯飞星火认知大模型的讯飞AI学习机GMV在5月和6月分别增长136%和217%。
同时,讯飞人工智能开放平台的开发者团队数量增长迅猛,两个月时间增加85万。截至2023年6月30日,科大讯飞开放平台开发者数已达到497.4万,近一年增长45%。
相关文章
- 人工智能终端迎来“国家标尺” 联想以规模化产品实践助力标准编制
- SpaceX拟在得克萨斯州建设人工智能芯片工厂,总耗资达1190亿美元
- 微软放弃Xbox Copilot人工智能
- 人工智能助力新型工业化 第九届数字中国建设峰会工业智能产业生态大会成功举办
- 中兴通讯携手印尼XLSMART 在雅加达正式启动联合创新中心加速印尼 5G-Advanced 与人工智能发展与应用
- 马斯克出庭作证,诉讼指控OpenAI违背了打造惠及全人类的通用人工智能的核心使命
- 实力登榜!思特奇入选2026全国企业“人工智能+”行动创新案例TOP100
- 汽车设计借助人工智能大幅缩短了研发周期
- 无锡市人工智能数据标注产业先导区,无锡高新区获批!
- 科大讯飞佛山人工智能产业基地正式启用,助力南海构建AI产业生态
- 苹果的继任CEO约翰·特努斯面临的第一个大难题是人工智能
- 海康存储亮相2026人工智能基础设施峰会 加速布局AI推理存储新赛道
- 荣登三榜!思特奇成功入选2026人工智能分类排行榜多项榜单
- 谷歌推出Mac版Gemini人工智能应用
- 人工智能教育实验室落地武汉 点猫科技与武汉携手共促AI教育发展
- ESIE 2026圆满收官:远景以“人工智能资产”定义新时代,引领储能从价格战走向价值战
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









