商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
2024-10-14 13:53:36爱云资讯阅读量:8,816
在这个金秋,“日日新·商量”又拿了金牌!
今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。凭借卓越的多模态基础能力和出色的应用能力,商汤SenseChat-Vision 5.5荣获了总分73.56的高分,并在数理逻辑维度取得第一,体现其强大的推理能力。
今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。凭借卓越的多模态基础能力和出色的应用能力,商汤SenseChat-Vision 5.5荣获了总分73.56的高分,并在数理逻辑维度取得第一,体现其强大的推理能力。
SenseChat-Vision5.5基础能力突出,
数理逻辑维度超越GPT-4o
本次SuperCLUE-V涵盖了国内外最具代表性的11个开源/闭源多模态理解大模型,聚焦多维度能力评估,包括基础能力和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了8个一级维度30个二级维度。报告称SenseChat-Vision 5.5在基础能力-数理逻辑推理任务如图表推理、场景推理方面具备领先优势。榜单显示,在数理逻辑分析能力中,SenseChat-Vision 5.5超越国内外所有参评模型包括GPT-4o的最新版本,位列第一。SuperCLUE-V采用细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息,以下为SenseChat-Vision 5.5测试案例部分呈现:
目前,多模态大模型能力显著提升,可提供纯语言、多图理解、语音、文生图、拟人、端侧模拟、行业模型等多模态、多版本、强场景Agent形态。
前瞻构造高阶思维逻辑数据,
用推理能力增强AI大模型智能
如今,复杂推理成为各模型之间的重要能力壁垒。对于大模型能力的分层,商汤科技董事长兼CEO徐立此前就提出三层架构(KRE)理论,即:第一层知识(Knowledge),世界知识的全面灌注;
第二层推理(Reasoning),理性思维的质变提升;
第三层执行(Execution),世界内容的互动变革。
这三层可以组成一个对于世界提供生产力工具模型的完备能力,其中提升基础模型的推理能力是目前人工智能发展的大方向。徐立还提出在垂直行业里如何构造高阶思维逻辑的合成数据,也是制胜关键。今年7月发布的“日日新5.5”大模型体系就创新使用大量使用合成高阶思维链数据,提升推理思维能力,在数理逻辑、英文、指令跟随等方面能力增强明显,2个多月的时间把基模型的能力提升了30%。未来,商汤科技将继续坚持基础大模型的持续研发与投入,前瞻探索最先进的大模型技术,突破数据与算力的限制,引领大模型的创新与落地。
目前,SenseChat5.5已经应用在商量网页版(WEB)——一款擅长高效搜索、整理、输出信息的智能应用,工作、学习、生活中的任何问题,问问商量,都能解决。
相关文章
- 商汤绝影首发AI汽车创新产品,世界模型「开悟」全新升级
- 商汤用AI大模型重建未来城市样貌
- 提效30%,降本80%!商汤大模型让智慧园区效能倍增
- 商汤董事长兼CEO徐立受邀出席2024香港工商界人士座谈会
- 近3000道题,商汤大模型拿了金牌
- 211亿市场规模,商汤大装置位居前列
- 徐冰最新访谈:商汤最近在做什么,AI最大的新机遇在哪里
- 商汤科技与中智股份达成合作,AI大模型赋能人力资源能力跃迁
- 商汤科技十周年,徐立首提 AI 2.0时代核心战略
- 商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
- 商汤元萝卜发布AI下棋机器人四合一启蒙版,象棋、围棋、国际象棋、五子棋任意下
- 商汤科技亮相2024中国算力大会,携手联通共推AI基础设施建设
- 商汤如影联手新东方国际教育,“留子们”的数字人老师来啦!
- 百年投资管理公司OMAI组团到访商汤科技,点赞「日日新」
- 商汤临港AIDC获评全国首个5A级智算中心
- 首批通过!商汤科技金融智脑FinAgent通过可信AI金融智能体评估,获当前最高评级