GLM-4-Plus在SuperCLUE基准测评和司南Compass Arena榜单均位居国内第一
2024-11-16 13:24:32AI云资讯129246
11月8日,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》,智谱GLM-4-Plus凭借出色的能力表现,在43个国内外大模型中位居第一梯队,总得分位列国内大模型首位。
SuperCLUE中文大模型基准测评旨在通过多维度综合性测评,对国内外大模型的发展趋势和综合效果进行实时跟踪。本次10月报告聚焦通用能力测评,选取了国内外有代表性的43个大模型,采用多维度、多层次的综合性测评方案进行测评。测评结果显示,o1-preview的推出进一步拉大了与其他模型的差距,国内大模型第一梯队竞争激烈,持续迭代表现不俗。其中国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。基于大模型在基础能力和应用能力的表现,共有23个国内大模型入选SuperCLUE模型象限。智谱GLM-4-Plus位居【卓越领导者】,代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。
11月14日,在司南OpenCompass公布的大语言模型对战榜单Compass Arena中,智谱GLM-4-Plus的竞技场评级分数位列榜首,领先GPT-4o-20240513。
Compass Arena 大语言模型对战榜单致力于构建一个完全基于用户真实反馈的公正、开放、透明的榜单。用户根据与大模型的真实对话体验进行投票,依据投票结果,使用 Elo 评分系统对大模型进行排名。
据悉,GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本,它标志着智谱继续瞄准通用人工智能,持续推进大模型技术的独立自主创新。作为智谱最新旗舰模型,在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。GLM-4-Plus 成为智谱全模型家族坚实的能力底座,在代码计算、数据分析、图像/视频特征识别等领域均实现性能的大幅提升,及成本的大幅下降,目前已上线智谱开放平台。
相关文章
- 92%学生实现高效突破!她将高中物理考点浓缩为4大模型,逆袭突破成常态
- 网安周开幕|绿盟大模型能力再获权威肯定,持续推动AI与网络安全深度融合
- 网络安全领域唯一入选!联通数科网络安全大模型入选北京首台(套)重大技术装备目录
- 亚信科技通过中国信通院首批“大模型应用交付总体能力”评估
- 科大讯飞亮相2025服贸会多个展馆,讯飞星火大模型引领AI+产业融合实践
- 中国移动助力中国物流打造物流行业专属千亿级参数大模型
- 科大讯飞助力中国物流发布千亿参数“流云”大模型
- 快手发布多模态大模型Keye-VL-1.5 8B性能领先、视频理解能力更强
- 皓丽全球首款四摄AI会议平板:AI全视之眼 + AI智会大模型双加持
- Soul全双工语音大模型升级 迭代人机交互体验感
- 模型选型专题系列 | 业界首个!元景MaaS平台上线《大模型选型说明书》
- 获央视点赞 深兰科技AI医疗大模型落地打浦桥街道社区服务中心
- 新达内与百度智能云达成战略合作 联合培养人工智能大模型人才
- 斑马AI大模型:为每个孩子提供专属学习方案
- 打造广东首个地方文献专题处理AI大模型,南沙区图书馆“阿贝数字人”项目重磅上线!
- 商汤大装置跻身中国大模型平台市场头部厂商,万象平台加速AI落地“最后一公里”