近3000道题,商汤大模型拿了金牌
2024-11-08 15:32:19爱云资讯16097
模型表现好,金牌少不了。
刚刚,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》:
商汤日日新·商量大模型(SenseChat5.5)凭借出色的能力表现,总得分位列国内大模型第一梯队,获得金牌。
本次SuperCLUE10月报告覆盖23个国内模型,聚焦语言大模型的通用能力评估,分为三大维度:除了考察“文科”、“理科”基础能力外,还有考察模型更高阶能力的“Hard”附加任务,总共2900+道题:
【理科任务】分为计算、逻辑推理、代码、工具使用测评集;
【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集;
【Hard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集。
商汤SenseChat5.5在多项评测任务中均位列第一梯队,文科中语言理解、安全等维度表现突出,也是理科中逻辑推理、代码学科的“尖子生”。
值得注意的是,在【Hard】的两项任务——精准指令遵循和高阶推理中,商汤SenseChat5.5是唯一两项任务均位于国内第一梯队的大模型,体现了模型优秀的复杂推理智能。
未来,商汤将继续坚持基础大模型的持续研发与投入,不断提升真正高阶推理及“慢思考”能力。
相关文章
- 商汤小浣熊牵手蚂蚁百宝箱,共建AI+数据分析方案
- 京东Joy Inside X 商汤元萝卜:让下棋机器人秒变百科大全
- 商汤小浣熊×联想,覆盖亿级用户
- 静水流深 商汤推动AI在香港多元化落地
- AI+编程教育,这么玩!商汤与编程猫达成战略合作
- 商汤科技担当引领者,牵动XR及虚拟数字人标准化未来
- 商汤与傅利叶达成战略合作,让大模型成为机器人的大脑和眼睛
- 100%国产化!商汤×麒麟软件联合发布
- 发放1亿元代金券!商汤大装置SenseCore 2.0全新升级
- 声网携手商汤,共拓实时音视频AI应用新边界
- 商汤日日新上线声网云市场,与四十家企业开启合作
- 商汤徐立:大模型推进数字人向智能化迈进
- 商汤大装置亮相“智算申城”,端到端能力赋能AI产业
- 商汤2024年度业绩:“三位一体”战略成效显著,生成式AI连续两年实现三位数增长
- 王晓刚:商汤绝影引领智能汽车进入AGI时代 | GTC 2025
- “城市服务”学会“深度思考”,商汤这两款产品接入DeepSeek!