讯飞星火在大模型横评中拔得头筹,成为AI时代的“灯塔”
2023-08-19 18:12:43AI云资讯1183
“从5月6日发布到今天,刚好是我们认知大模型100天的‘百日会战’。”在8月15日的科大讯飞星火认知大模型V2.0发布会上,讯飞董事长刘庆峰说道。而在星火V2.0发布后,全世界的目光再次聚焦到新一轮的大模型竞技潮来。
近日,《麻省理工科技评论》中国对讯飞星火、百度文心一言、商汤商量和阿里通义千问四款主流中国大模型进行了深度评测,结果显示讯飞星火以总分第一的成绩荣登榜首。

《麻省理工科技评论》是享誉世界的麻省理工学院全资拥有的媒体平台,在业界拥有很强的权威性,也被视为学术界的泰山北斗。此次它采用百分制计量,可参照60%得分率作为“及格线”,除两款参测大模型刚过“及格线”外,百度文心一言获得75.2%得分率,而讯飞星火斩获81.5%最高分,四款大模型的平均得分率为72.6%。可见,讯飞星火一己之力“拉高”的中国大模型的平均水平。

△四款大模型一级分类测试结果(部分)
根据《麻省理工科技评论》设计的600道题目,本次横评重点考察大模型语言、数学、理科、文科、逻辑、编程、综合知识和安全性共计8大类能力(一级分类),并涵盖126个二级分类和290个三级标签。通过拟人考试般的单选、多选、填空、简答四种题型,旨在评出“最聪明”的中国大模型。
作为中文语言大模型,《麻省理工科技评论》将语文专项测试放在了首测,题目是生成一份不同高校毕业大学生首份工作内容和薪资的调研问卷。结果商汤商量和通义千问都采取了“堆砌式”回答,只有讯飞星火与文心一言给出了思路清晰,条理顺畅的问卷结构,双方仅以0.63%得分率不分伯仲。
在随后的数学与逻辑思维等测试项中,讯飞星火开启了“狂飙模式”。《麻省理工科技评论》先采用了一道“求解不等式”的数学题,唯有讯飞给出了解题逻辑和正确答案,并以77.54%得分率远高于56%的平均值,大幅高出21.75%。而在逻辑思维测试中,讯飞完美地解答了“池塘与水壶”的弯弯绕题目,展现了其在空间方位、演绎推理、逻辑谬误检测等方面的优势,并以81.2%得分率高出72.6%的平均值。
当测试来到了代码编程能力阶段,真正的好戏才刚刚开始。在8月15日,讯飞才对星火V2.0的代码能力进行了突破性提升,只因代码能力是支撑认知大模型“智慧涌现”的关键维度,代码能力与“聪明度”直接相关。《麻省理工科技评论》出具的题型是——用Python生成以下代码:def assertBbs(num : int, pow:int):"""实现一个函数,快速幂计算"""。这对于不懂计算机编程的人来说,无异于有字天书,但对于四款大模型来说,它们的答案却各有不同。

直接看结果吧,讯飞星火不仅生成了正确代码,还给出了“这个函数需要实现快速幂计算,即计算x的y次方”的详细解析。最终讯飞星火以80%得分率明显高于71%的平均值,《麻省理工科技评论》用“表现颇为亮眼”来形容讯飞的代码能力。此外星火在综合知识测试中也以80.61%的得分率远高于71.6%平均率,这并不令人意外,因为综合知识测试涵盖了以上多项能力,在单项中只要获得领先,在综合测试中也不会有太大悬念。

△四款大模型综合得分率
最终《麻省理工科技评论》一锤定音,讯飞星火以81.5分的成绩在本次横评拔得头筹,成为“最聪明”的中国大模型,在综合实力上位列第一梯队。2023年,随着中国人工智能研究在世界版图中占据愈发重要的地位,中国大模型的集体繁荣昭示着AI大航海时代的来临,以讯飞星火为代表的中国大模型佼佼者,正深入产业链上下游共创共建,已成为大模型时代照亮前路的“灯塔”。
相关文章
- 讯飞AI录音笔Pokee,同声转译外教讲授实时双语呈现
- 讯飞输入法获NextWorld2025年度风采奖 登陆纽约时代广场
- 生成式AI再进化:讯飞智文为PPT注入“演讲力”,实现内容到表达的跨越
- 讯飞输入法荣登雷科技年度灯塔产品榜人工智能榜
- 工信部人形机器人与具身智能标准化技术委员会成立,科大讯飞担任委员单位
- 电子纸大屏性能持续进化:科大讯飞携手元太科技发布13.3英寸智能办公本MAX2
- 科大讯飞河南人工智能产业生态基地正式启动,共话郑州港区人工智能新未来
- 科大讯飞与中国银联签署创新业务合作协议
- 讯飞输入法荣膺2025EDGE AWARDS最佳AI创新应用
- 科大讯飞获2025年度中国IDC产业绿色解决方案奖
- 大模型如何“落地生根” 科大讯飞的“AI+行业”实践样本
- 科大讯飞AI翻译亮相2025企业家博鳌论坛,助力全球智慧无缝交融
- 科大讯飞与云南省正道教育集团达成战略合作,共筑云南智慧教育新未来
- 从交互中枢到县域治理:透视科大讯飞入选2025“人工智能+”行业生态范式案例
- 科大讯飞携手印尼金光集团,共拓AI赋能教育新蓝海
- 科大讯飞获首届“AI领航杯”大赛技术创新奖及“AI+安全”赛道一等奖









