模型选型专题系列 | 业界首个!元景MaaS平台上线《大模型选型说明书》
2025-09-05 18:15:11AI云资讯2424
当前业内有很多语言模型,我们如何在实际应用中去选择最合适的一款呢?虽然有模型性能的评测基准,但主要关注多语言理解(MMLU)、写作(WritingBench)、逻辑推理(AutoLogi)、数学(AIME)、代码(LiveCodeBench)等方面的通用能力,通常与实际应用场景不匹配。
在实体经济应用场景中,性能最好的模型并非总是最合适的,还需综合考虑推理成本等因素,以实现最高性价比,避免“用大炮打蚊子”。例如,开发短信反诈服务、办公助手、手机操控智能体时,分别选择什么样的模型才能兼顾性能和成本?业界还没有通用的方法论,通常会经历反复试错。
针对以上痛点,中国联通数据科学与人工智能研究院以“能力-场景”双向驱动,在自研的模型能力边界量化基础上,梳理大模型常见应用场景,构建“典型模型-能力类别-能力等级-应用场景”映射图谱,形成《大模型选型说明书》。为开发者提供权威、透明、便捷的选型指导,已助力多场景应用落地,现已在元景MaaS平台发布,将经验与业界共享。
《大模型选型说明书》界面预览
能力和场景精准匹配
首先,调研业界主流大模型评测基准中的能力分类方法,剖析现有能力评估与实际应用需求之间的鸿沟。其次,依托深厚的落地实践积淀,梳理出105个典型的大模型应用场景。结合典型应用场景,提出一种新的大模型能力分类方法,归纳为5大类、27小类;并将每类能力划分为三个等级,包含初级、中级和高级。最后,通过分析模型的能力类别、能力等级与应用场景之间的依赖关系,构建了大模型“能力类别-能力等级-应用场景”关系映射图,如下所示。
语言大模型“能力类别-能力等级-应用场景”关系映射图
典型模型能力等级评定
针对5大类、27小类模型能力,构建了丰富的评测样本集,对业界超30款主流模型进行测试、打分、统计和分析,给出模型在每个能力类别上的得分,评定模型能力等级。详细评测结果已上线元景MaaS平台,其中部分结果如下图所示。
典型模型能力评测结果展示
选型使用说明书构建
基于模型能力等级评定结果,结合“能力类别-能力等级-应用场景”关系图谱,建立超30款典型模型与105个典型应用场景间的匹配关系,形成“典型模型-能力类别-能力等级-应用场景”关系图谱,作为《大模型选型说明书》,部分内容如下所示。
“典型模型-能力类别-能力等级-应用场景”关系图谱
应用赋能和迭代更新
《大模型选型说明书》作为业界首个语言大模型选型经验指南,一方面可以帮助开发者根据应用场景找到兼顾性能和成本的高性价比模型,另一方面提供了每个模型能胜任的典型应用场景,为模型选型决策提供经验参考,极大降低大模型开发应用技术门槛。
目前,已赋能电信反诈、智能工单、客服助手、手机自动驾驶、深度研究等超20个应用场景落地。未来,中国联通数据科学与人工智能研究院将持续扩充评测模型库和典型应用场景,动态更新《大模型选型说明书》,确保其始终反映技术前沿与市场变化。
联通元景大模型将继续秉承“多模共生、普惠速成、场景深耕、数智融合、安全自主”五大特性,构建多模共生的模型家族,打造普惠速成的MaaS平台,开发场景深耕的智能体应用,助力千行百业实现智能化升级,加速人工智能+的推广应用,让人工智能更简单。
相关文章
- 深耕政法大模型,中信科移动旗下虹服公司打造“一网统管”社会治理新典范
- TransAI发布全球首个外贸沟通AI大模型,不会外语也能做遍全球生意
- 全球首款结合深度学习与大语言模型的酒店房型匹配系统:途灵科技TourMind 正式推出MappingMind解决方案
- 云栖大会|斑马智行将发布全球首个全模态端侧大模型实车方案
- 戴尔科技:从“模型驱动”到“数据驱动”,重塑企业智能化转型新范式
- 鸿蒙版高德地图重磅更新,VLM交通视觉语言大模型、天气提醒护航十一出行
- 蘑菇车联凭MogoMind大模型获评新科技百强 ,以AI重构未来城市运行逻辑
- 以科技创新推动产业创新专题 | 5倍提升!ShortDF突破多模态模型质、效困局
- 三维模型上产线 | 新迪数字助力美云智数打通研发“最后一公里”
- 陈天桥创立的AI公司MiroMind成为全球顶尖预测型大模型,性能领先行业基准
- 华东师大与华为联合发布《大模型背景下高等教育数智化转型研究报告》
- 2025世界制造业大会|科大讯飞用十项“黑科技”破解制造强国密码,发布羚羊工业大模型3.0
- 2025H1大模型公有云中国第一!火山引擎市场份额近半
- 声网 AI 模型评测平台新增多项评测维度 模型选择数量提升3倍
- 科大讯飞联合华为发布“星火教育、医疗大模型场景一体机解决方案”
- 跨维智能与腾讯云达成战略合作,以生成式世界模型驱动具身智能高效落地









