GLM-4-Plus在SuperCLUE基准测评和司南Compass Arena榜单均位居国内第一
2024-11-16 13:24:32爱云资讯122279
11月8日,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》,智谱GLM-4-Plus凭借出色的能力表现,在43个国内外大模型中位居第一梯队,总得分位列国内大模型首位。
SuperCLUE中文大模型基准测评旨在通过多维度综合性测评,对国内外大模型的发展趋势和综合效果进行实时跟踪。本次10月报告聚焦通用能力测评,选取了国内外有代表性的43个大模型,采用多维度、多层次的综合性测评方案进行测评。测评结果显示,o1-preview的推出进一步拉大了与其他模型的差距,国内大模型第一梯队竞争激烈,持续迭代表现不俗。其中国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。基于大模型在基础能力和应用能力的表现,共有23个国内大模型入选SuperCLUE模型象限。智谱GLM-4-Plus位居【卓越领导者】,代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。
11月14日,在司南OpenCompass公布的大语言模型对战榜单Compass Arena中,智谱GLM-4-Plus的竞技场评级分数位列榜首,领先GPT-4o-20240513。
Compass Arena 大语言模型对战榜单致力于构建一个完全基于用户真实反馈的公正、开放、透明的榜单。用户根据与大模型的真实对话体验进行投票,依据投票结果,使用 Elo 评分系统对大模型进行排名。
据悉,GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本,它标志着智谱继续瞄准通用人工智能,持续推进大模型技术的独立自主创新。作为智谱最新旗舰模型,在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。GLM-4-Plus 成为智谱全模型家族坚实的能力底座,在代码计算、数据分析、图像/视频特征识别等领域均实现性能的大幅提升,及成本的大幅下降,目前已上线智谱开放平台。
相关文章
- 《2024中国AI大模型产业发展与应用研究报告》发布,美洽案例被引用
- 中国大模型公司提出新架构,解决Context无限长问题,开启Agent时代
- 中国大模型公司提出新架构 解决Context无限长问题 开启Agent时代
- 容联云大模型应用再获认可,上榜中国最具商业潜力AI应用
- 浩鲸科技中标电信大模型+智能客服话务项目
- 南天信息采用元脑企智EPAI,金融大模型应用开发如虎添翼
- 洞察大模型需求,忆联持续完善CSSD矩阵
- AI大模型赋能!移远通信打造具有“超能力“的AI智能玩具解决方案
- AI大模型赋能!移远通信打造具有“超能力”的AI智能玩具解决方案
- 车企战败背后:借助天润融通AI大模型,破解80%留资顾客流失之谜
- 云捷亮数首批加入中国开放智算产业联盟,加速AI及大模型应用落地
- 商汤推出“日日新”融合大模型,勇夺“双冠王”
- 首批首家!DataCanvas Alaya NeW智算操作系统通过中国信通院“大模型计算资源调度平台” 标准评测
- 华为云入选50大新质生产力示范案例:盘古大模型深耕行业,布局AI for Science
- 双揽工信部典型案例,百度大模型安全技术实践备受认可
- 讯飞商业生态平台2.0来了!构建大模型应用服务新体系