模型选型专题系列 | 业界首个!元景MaaS平台上线《大模型选型说明书》
2025-09-05 18:15:11AI云资讯2578
当前业内有很多语言模型,我们如何在实际应用中去选择最合适的一款呢?虽然有模型性能的评测基准,但主要关注多语言理解(MMLU)、写作(WritingBench)、逻辑推理(AutoLogi)、数学(AIME)、代码(LiveCodeBench)等方面的通用能力,通常与实际应用场景不匹配。
在实体经济应用场景中,性能最好的模型并非总是最合适的,还需综合考虑推理成本等因素,以实现最高性价比,避免“用大炮打蚊子”。例如,开发短信反诈服务、办公助手、手机操控智能体时,分别选择什么样的模型才能兼顾性能和成本?业界还没有通用的方法论,通常会经历反复试错。
针对以上痛点,中国联通数据科学与人工智能研究院以“能力-场景”双向驱动,在自研的模型能力边界量化基础上,梳理大模型常见应用场景,构建“典型模型-能力类别-能力等级-应用场景”映射图谱,形成《大模型选型说明书》。为开发者提供权威、透明、便捷的选型指导,已助力多场景应用落地,现已在元景MaaS平台发布,将经验与业界共享。

《大模型选型说明书》界面预览
能力和场景精准匹配
首先,调研业界主流大模型评测基准中的能力分类方法,剖析现有能力评估与实际应用需求之间的鸿沟。其次,依托深厚的落地实践积淀,梳理出105个典型的大模型应用场景。结合典型应用场景,提出一种新的大模型能力分类方法,归纳为5大类、27小类;并将每类能力划分为三个等级,包含初级、中级和高级。最后,通过分析模型的能力类别、能力等级与应用场景之间的依赖关系,构建了大模型“能力类别-能力等级-应用场景”关系映射图,如下所示。

语言大模型“能力类别-能力等级-应用场景”关系映射图
典型模型能力等级评定
针对5大类、27小类模型能力,构建了丰富的评测样本集,对业界超30款主流模型进行测试、打分、统计和分析,给出模型在每个能力类别上的得分,评定模型能力等级。详细评测结果已上线元景MaaS平台,其中部分结果如下图所示。

典型模型能力评测结果展示
选型使用说明书构建
基于模型能力等级评定结果,结合“能力类别-能力等级-应用场景”关系图谱,建立超30款典型模型与105个典型应用场景间的匹配关系,形成“典型模型-能力类别-能力等级-应用场景”关系图谱,作为《大模型选型说明书》,部分内容如下所示。

“典型模型-能力类别-能力等级-应用场景”关系图谱
应用赋能和迭代更新
《大模型选型说明书》作为业界首个语言大模型选型经验指南,一方面可以帮助开发者根据应用场景找到兼顾性能和成本的高性价比模型,另一方面提供了每个模型能胜任的典型应用场景,为模型选型决策提供经验参考,极大降低大模型开发应用技术门槛。
目前,已赋能电信反诈、智能工单、客服助手、手机自动驾驶、深度研究等超20个应用场景落地。未来,中国联通数据科学与人工智能研究院将持续扩充评测模型库和典型应用场景,动态更新《大模型选型说明书》,确保其始终反映技术前沿与市场变化。
联通元景大模型将继续秉承“多模共生、普惠速成、场景深耕、数智融合、安全自主”五大特性,构建多模共生的模型家族,打造普惠速成的MaaS平台,开发场景深耕的智能体应用,助力千行百业实现智能化升级,加速人工智能+的推广应用,让人工智能更简单。
相关文章
- MiroMind 破局:在大语言模型的夹缝中,陈天桥在造什么?
- “工业版DeepSeek”,安世亚太精智 iGPT 工业大模型平台荣获国家工业大模型最高评级
- 深度观察|云知声“山海·知音”2.0破解大模型落地“最后一公里”
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 商汤大装置杨松:结果即服务,让大模型真正跑进产业
- 26年大模型应用开发从现在开始学!稳了!
- 风行在线携手阿里云通义大模型,AI漫剧创作平台“橙星梦工厂”,引领数字内容生产新范式!
- 政策技术协同奏响人形机器人产业强音,微美全息以AI模型为具身产业注入动能!
- 英矽智能上线大语言模型训练框架MMAI Science Gym,赋能通用模型实现垂类领域专精
- MongoDB推出Voyage 4模型,为生产就绪型AI应用检索的准确性树立新标杆
- 我国首部大模型国家标准实施,天翼云推动智算服务标准化
- 当虹科技BlackEye入选浙江省首批“AI+文化”重点模型
- 下一代大模型技术竞争一触即发,苹果/微美全息强势布局端侧AI高潜力领域!
- 东风奕派 X 中关村科金 | 大模型外呼重塑汽车营销新链路,实现高效线索转化
- 找钢集团携手智谱AI、清华大学共建产业级大模型与智能体协同体系
- 迎接Agent爆发元年,七牛智能的MaaS平台已成多模型调用“必选项”









