模型选型专题系列 | 业界首个!元景MaaS平台上线《大模型选型说明书》
2025-09-05 18:15:11AI云资讯2534
当前业内有很多语言模型,我们如何在实际应用中去选择最合适的一款呢?虽然有模型性能的评测基准,但主要关注多语言理解(MMLU)、写作(WritingBench)、逻辑推理(AutoLogi)、数学(AIME)、代码(LiveCodeBench)等方面的通用能力,通常与实际应用场景不匹配。
在实体经济应用场景中,性能最好的模型并非总是最合适的,还需综合考虑推理成本等因素,以实现最高性价比,避免“用大炮打蚊子”。例如,开发短信反诈服务、办公助手、手机操控智能体时,分别选择什么样的模型才能兼顾性能和成本?业界还没有通用的方法论,通常会经历反复试错。
针对以上痛点,中国联通数据科学与人工智能研究院以“能力-场景”双向驱动,在自研的模型能力边界量化基础上,梳理大模型常见应用场景,构建“典型模型-能力类别-能力等级-应用场景”映射图谱,形成《大模型选型说明书》。为开发者提供权威、透明、便捷的选型指导,已助力多场景应用落地,现已在元景MaaS平台发布,将经验与业界共享。
《大模型选型说明书》界面预览
能力和场景精准匹配
首先,调研业界主流大模型评测基准中的能力分类方法,剖析现有能力评估与实际应用需求之间的鸿沟。其次,依托深厚的落地实践积淀,梳理出105个典型的大模型应用场景。结合典型应用场景,提出一种新的大模型能力分类方法,归纳为5大类、27小类;并将每类能力划分为三个等级,包含初级、中级和高级。最后,通过分析模型的能力类别、能力等级与应用场景之间的依赖关系,构建了大模型“能力类别-能力等级-应用场景”关系映射图,如下所示。
语言大模型“能力类别-能力等级-应用场景”关系映射图
典型模型能力等级评定
针对5大类、27小类模型能力,构建了丰富的评测样本集,对业界超30款主流模型进行测试、打分、统计和分析,给出模型在每个能力类别上的得分,评定模型能力等级。详细评测结果已上线元景MaaS平台,其中部分结果如下图所示。
典型模型能力评测结果展示
选型使用说明书构建
基于模型能力等级评定结果,结合“能力类别-能力等级-应用场景”关系图谱,建立超30款典型模型与105个典型应用场景间的匹配关系,形成“典型模型-能力类别-能力等级-应用场景”关系图谱,作为《大模型选型说明书》,部分内容如下所示。
“典型模型-能力类别-能力等级-应用场景”关系图谱
应用赋能和迭代更新
《大模型选型说明书》作为业界首个语言大模型选型经验指南,一方面可以帮助开发者根据应用场景找到兼顾性能和成本的高性价比模型,另一方面提供了每个模型能胜任的典型应用场景,为模型选型决策提供经验参考,极大降低大模型开发应用技术门槛。
目前,已赋能电信反诈、智能工单、客服助手、手机自动驾驶、深度研究等超20个应用场景落地。未来,中国联通数据科学与人工智能研究院将持续扩充评测模型库和典型应用场景,动态更新《大模型选型说明书》,确保其始终反映技术前沿与市场变化。
联通元景大模型将继续秉承“多模共生、普惠速成、场景深耕、数智融合、安全自主”五大特性,构建多模共生的模型家族,打造普惠速成的MaaS平台,开发场景深耕的智能体应用,助力千行百业实现智能化升级,加速人工智能+的推广应用,让人工智能更简单。
相关文章
- 浪潮云海InCloud AIOS一体化AI解决方案正式发布,推动大模型规模化落地
- 瑞声科技:豆包 AI手机核心供应商,合作多家海外大模型企业
- 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单
- 易鑫开源汽车金融行业首个Agentic大模型,“高性能+低成本”加快推动商业化应用
- 迈瑞发布启元检验大模型丨AI检验专家已就位!
- 携手华为 加速AI技术落地丨聘才猫AI人力大模型亮相2025年世界计算大会
- 基石智算国际版正式上线,为全球开发者提供大模型API服务
- FLUX.2 图像生成模型发布,针对 NVIDIA RTX GPU 优化
- 度小满谢剑:金融大模型的优势在“成本优化”与“场景适配”
- 基调听云亮相第八届南方信息大会,深度解读大模型赋能统一可观测性平台实践
- 发布汽车金融行业首款Agentic大模型,易鑫以AI硬实力斩获时代“金桔奖”
- 通用医学影像大模型iMedImage赋能临床多场景应用
- 从“制造”到“智造”:博威合金以AI大模型打造新质生产力样本
- 腾讯云无锡峰会:腾讯云服务80%江苏头部民企 混元大模型等AI全栈产品加速进化
- 趋境科技KTransformers+LLaMA-Factory,消费级显卡搞定千亿模型定制
- 从“人工”到“智能”,百思大模型掀起数据“智”理革命









