近3000道题,商汤大模型拿了金牌
2024-11-08 15:32:19爱云资讯16133
模型表现好,金牌少不了。
刚刚,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》:
商汤日日新·商量大模型(SenseChat5.5)凭借出色的能力表现,总得分位列国内大模型第一梯队,获得金牌。
本次SuperCLUE10月报告覆盖23个国内模型,聚焦语言大模型的通用能力评估,分为三大维度:除了考察“文科”、“理科”基础能力外,还有考察模型更高阶能力的“Hard”附加任务,总共2900+道题:
【理科任务】分为计算、逻辑推理、代码、工具使用测评集;
【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集;
【Hard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集。
商汤SenseChat5.5在多项评测任务中均位列第一梯队,文科中语言理解、安全等维度表现突出,也是理科中逻辑推理、代码学科的“尖子生”。
值得注意的是,在【Hard】的两项任务——精准指令遵循和高阶推理中,商汤SenseChat5.5是唯一两项任务均位于国内第一梯队的大模型,体现了模型优秀的复杂推理智能。
未来,商汤将继续坚持基础大模型的持续研发与投入,不断提升真正高阶推理及“慢思考”能力。
相关文章
- 商汤大装置三项满分!IDC首次发布中国大模型推理算力报告
- 小米AI眼镜×商汤日日新,打造随身的AI入口
- 商汤大装置发布基于DeepLink的异构混合调度方案,加速国产算力从“可用”迈向“好用”
- 商汤大装置联合发布“算电协同平台”,建设绿色智算中心“样板间”
- 商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁
- 曦望与商汤科技、无极资本达成战略合作,共拓中国AI算力生态新高地
- 商汤董事长兼CEO徐立:人工智能的十年演进
- 值得买科技与商汤科技达成战略合作,共聚WAIC探索消费智能体新机遇
- 商汤发布「悟能」具身智能平台:4D 真实世界构建,让机器人“看懂、会动、能交互”
- 商汤科技即将发布“日日新6.5”,多项产品升级驱动生产力革新和交互升级
- 商汤×华东院达成“AI+建筑”战略级合作,70年智慧焕发“日日新”
- 商汤科技计划进军具身智能:核心团队已初步组建完毕
- 商汤科技将在2025WAIC发布日日新6.5大模型及具身智能平台
- 中韩科技对话再升级,韩国高规格代表团到访商汤科技
- 全球AI人才榜首次曝光,何恺明登顶师承汤晓鸥,商汤王晓刚、石建萍上榜
- 国内首家!商汤科技大装置万象获得中国信通院“大模型推理平台”最高评级认证