Compass Arena首期大模型竞技场榜单揭晓,智谱AI GLM-4系列模型展示领先实力
2024-06-15 11:17:35爱云资讯6020
6月13日,司南OpenCompass和魔搭ModelScope联手推出的大语言模型竞技场 Compass Arena公布首期大模型对战榜单。智谱AI的GLM-4 w/search 排名仅次于GPT-4o,位列国内大模型第一。相比 GLM-4,GLM-4 w/search 可以在交互过程中引入外部搜索引擎信息辅助内容生成。
Compass Arena司南大模型竞技场是由司南OpenCompass团队和魔搭ModelScope团队共同推出的大语言模型 (LLM) 评测平台,旨在为国内的大语言模型领域引入一种全新的竞技模式,为广大互联网用户提供了一个匿名、随机的大语言模型竞技环境,以产生更加客观和真实的评价。Compass Arena汇集了Qwen-Max、GLM-4、abab6.5以及Llama 3系列等 20 余个主流大语言模型,通过创新的竞技模式,让用户在直观体验比较不同模型的性能后,根据自己对生成内容质量的主观判断,自由评估选择生成效果更为出色的大模型。
Compass Arena大模型竞技场首期对战榜单收集了截至6月12日接近6000条由用户真实反馈的大模型匿名对战数据,经过数据清洗和过滤后利用Bradley-Terry模型估计了大语言模型的竞技场Elo等级分数和95%置信区间,并使用该等级分数对大模型进行排名。榜单中,智谱AI的GLM-4 w/search凭借回答环节引入外部搜索引擎信息能力的辅助,有效提升了生成内容的准确性和完整性,排名仅次于GPT-4o位列第二名,成为Compass Arena大模型竞技场首期对战榜单国内大模型第一名。
值得一提的是,智谱AI的GLM-4系列模型自发布以来便收获业内及广大用户认可,并多次在权威榜单与全球顶级大模型一较高下。清华《SuperBench大模型综合能力评测报告》显示,GLM-4在语义理解等方面的能力表现超过众多国际一流模型,在代码、智能体等方面,排名国内第一。在SuperCLUE-Fin(SC-Fin)中文原生金融大模型测评基准中,GLM-4斩获一项A+及多项A级评价,在国内大模型中排名第一。
据了解,智谱AI于今年1月推出新一代基座大模型GLM-4,并在6月初发布最新开源模型GLM-4-9B,该模型拥有更强的基础能力,支持更长的上下文(最高支持1M/约两百万字),有更精准的函数调用和All Tools能力,并在这个尺寸上首次具备了多模态能力。GLM-4-9B综合能力相比ChatGLM3-6B提升40%,全面超过Llama-3-8B-Instruct,中文学科能力提升50%,最高支持达1百万tokens长文本,支持多达26种语言,函数调用(Function Call)能力媲美GPT-4-Turbo。
上述模型均已在智谱AI MaaS大模型开放平台上线,开发者可以通过bigmodel.cn便捷接入GLM-4全系列模型开放API,从而体验智谱大模型的卓越性能。
相关文章
- 亿咖通科技亮相2025世界人工智能大会,以舱驾融合领跑AI大模型应用市场
- 端侧大模型迎来“轻“革命:移远通信 × RWKV 打造“轻量AI大脑“
- 从智鑫多维到Agentic大模型:易鑫亮相WAIC彰显金融科技实力
- WAIC 2025青年菁英交流会之下一代大模型架构演进:聚焦前沿理论突破,探索大模型演进新路
- 宝信软件携大模型、人形机器人、国产大型 PLC 等硬核产品亮相WAIC 2025
- 中国移动大模型产业创新基地焕新升级
- “九天”通用基础大模型3.0发布 模型能力多维升级 多项技术成果开源
- 星火语音同传大模型闪耀世界人工智能大会,讯飞翻译机构建全球沟通桥梁
- 荣耀发布 MagicGUI 大模型并开源 加速构建AI终端生态
- 每日互动AI一体机GAI Station:安全融合大模型与大数据 高效驱动企业业务增长
- SuperCLUE发布工业大模型测评最新榜单,北电数智骄阳·工业大模型综合排名第一
- 绝影亮相NVIDIA展台,端侧多模态大模型落地成果显著
- 国内首个通过主任医师评测的大模型,已在夸克AI搜索上线
- 科大讯飞亮相2025政法装备展,星火法律大模型“落地生花”
- 邬贺铨:人工智能从生成式大模型向AI Agent和Agentic AI发展,互联网进入智能体时代
- AI大模型技术持续突破,蘑菇车联跻身“2024年中国独角兽企业”榜单