GLM-4-Plus在SuperCLUE基准测评和司南Compass Arena榜单均位居国内第一
2024-11-16 13:24:32AI云资讯129423
11月8日,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》,智谱GLM-4-Plus凭借出色的能力表现,在43个国内外大模型中位居第一梯队,总得分位列国内大模型首位。


SuperCLUE中文大模型基准测评旨在通过多维度综合性测评,对国内外大模型的发展趋势和综合效果进行实时跟踪。本次10月报告聚焦通用能力测评,选取了国内外有代表性的43个大模型,采用多维度、多层次的综合性测评方案进行测评。测评结果显示,o1-preview的推出进一步拉大了与其他模型的差距,国内大模型第一梯队竞争激烈,持续迭代表现不俗。其中国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。基于大模型在基础能力和应用能力的表现,共有23个国内大模型入选SuperCLUE模型象限。智谱GLM-4-Plus位居【卓越领导者】,代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。

11月14日,在司南OpenCompass公布的大语言模型对战榜单Compass Arena中,智谱GLM-4-Plus的竞技场评级分数位列榜首,领先GPT-4o-20240513。
Compass Arena 大语言模型对战榜单致力于构建一个完全基于用户真实反馈的公正、开放、透明的榜单。用户根据与大模型的真实对话体验进行投票,依据投票结果,使用 Elo 评分系统对大模型进行排名。

据悉,GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本,它标志着智谱继续瞄准通用人工智能,持续推进大模型技术的独立自主创新。作为智谱最新旗舰模型,在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。GLM-4-Plus 成为智谱全模型家族坚实的能力底座,在代码计算、数据分析、图像/视频特征识别等领域均实现性能的大幅提升,及成本的大幅下降,目前已上线智谱开放平台。
相关文章
- 卡思优派《AI大模型时代数据标注行业洞察与管理实践》报告正式发布
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 当大模型走进研发制造:我们为什么要测“工业智能体”
- 深耕垂直场景,同盾科技以“大模型+智能体”破局金融风控,获艾瑞权威认可
- 国家级金标准定调!“Ai好医生诊疗支持系统”基座模型荣膺年度优秀国产大模型
- “工业版DeepSeek”,安世亚太精智 iGPT 工业大模型平台荣获国家工业大模型最高评级
- 深度观察|云知声“山海·知音”2.0破解大模型落地“最后一公里”
- 商汤大装置杨松:结果即服务,让大模型真正跑进产业
- 26年大模型应用开发从现在开始学!稳了!
- 风行在线携手阿里云通义大模型,AI漫剧创作平台“橙星梦工厂”,引领数字内容生产新范式!
- 我国首部大模型国家标准实施,天翼云推动智算服务标准化
- 下一代大模型技术竞争一触即发,苹果/微美全息强势布局端侧AI高潜力领域!
- 东风奕派 X 中关村科金 | 大模型外呼重塑汽车营销新链路,实现高效线索转化
- 找钢集团携手智谱AI、清华大学共建产业级大模型与智能体协同体系
- 行业安全新标杆 中石油数智研究院携手深信服构建昆仑大模型安全能力内核
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍









