近3000道题,商汤大模型拿了金牌
2024-11-08 15:32:19AI云资讯16402
模型表现好,金牌少不了。
刚刚,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》:
商汤日日新·商量大模型(SenseChat5.5)凭借出色的能力表现,总得分位列国内大模型第一梯队,获得金牌。

本次SuperCLUE10月报告覆盖23个国内模型,聚焦语言大模型的通用能力评估,分为三大维度:除了考察“文科”、“理科”基础能力外,还有考察模型更高阶能力的“Hard”附加任务,总共2900+道题:
【理科任务】分为计算、逻辑推理、代码、工具使用测评集;
【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集;
【Hard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集。

商汤SenseChat5.5在多项评测任务中均位列第一梯队,文科中语言理解、安全等维度表现突出,也是理科中逻辑推理、代码学科的“尖子生”。
值得注意的是,在【Hard】的两项任务——精准指令遵循和高阶推理中,商汤SenseChat5.5是唯一两项任务均位于国内第一梯队的大模型,体现了模型优秀的复杂推理智能。
未来,商汤将继续坚持基础大模型的持续研发与投入,不断提升真正高阶推理及“慢思考”能力。
相关文章
- 商汤SenseNova U1图文交错增强版:支持多页连续创作,角色风格不“跑偏”
- 蝉联十载,稳居第一!商汤科技再夺中国视觉AI市场份额第一
- 海光DCU首批完成商汤SenseNova U1极速适配
- 香港科创标杆奖项!商汤首席科学家林达华荣获中银香港科创奖
- 商汤元萝卜× OpenClaw|不只下棋,更是龙虾AI智能体
- 业界最高!商汤大装置获评全国首个5A级原生AI云平台
- 商汤大装置杨松:结果即服务,让大模型真正跑进产业
- 30万台设备、700+伙伴:商汤牵头视觉 AI 核心标准,支撑亿万级无感通行服务
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 商汤小浣熊3.0来了,AI办公智能体一键生成高质量PPT
- 商汤即将召开产品发布周:技术实用主义重塑AI产品
- 超越芯片预设上限!记忆张量与商汤大装置实现国产 GPGPU 体系级性能与成本双突破
- 商汤大装置获信通院“算模数用”三大奖项,彰显AI基础设施全栈实力
- 商汤元萝卜联动疯狂动物城推出朱迪系列新品,以用户体验传递成长力量
- 上海博物馆×商汤科技:AI助手上线,逛馆告别“人挤人”
- 商汤科技与正大集团共探AI与实体经济融合新机遇
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代









