模型选型专题系列 | 业界首个!元景MaaS平台上线《大模型选型说明书》
2025-09-05 18:15:11AI云资讯1801
当前业内有很多语言模型,我们如何在实际应用中去选择最合适的一款呢?虽然有模型性能的评测基准,但主要关注多语言理解(MMLU)、写作(WritingBench)、逻辑推理(AutoLogi)、数学(AIME)、代码(LiveCodeBench)等方面的通用能力,通常与实际应用场景不匹配。
在实体经济应用场景中,性能最好的模型并非总是最合适的,还需综合考虑推理成本等因素,以实现最高性价比,避免“用大炮打蚊子”。例如,开发短信反诈服务、办公助手、手机操控智能体时,分别选择什么样的模型才能兼顾性能和成本?业界还没有通用的方法论,通常会经历反复试错。
针对以上痛点,中国联通数据科学与人工智能研究院以“能力-场景”双向驱动,在自研的模型能力边界量化基础上,梳理大模型常见应用场景,构建“典型模型-能力类别-能力等级-应用场景”映射图谱,形成《大模型选型说明书》。为开发者提供权威、透明、便捷的选型指导,已助力多场景应用落地,现已在元景MaaS平台发布,将经验与业界共享。
《大模型选型说明书》界面预览
能力和场景精准匹配
首先,调研业界主流大模型评测基准中的能力分类方法,剖析现有能力评估与实际应用需求之间的鸿沟。其次,依托深厚的落地实践积淀,梳理出105个典型的大模型应用场景。结合典型应用场景,提出一种新的大模型能力分类方法,归纳为5大类、27小类;并将每类能力划分为三个等级,包含初级、中级和高级。最后,通过分析模型的能力类别、能力等级与应用场景之间的依赖关系,构建了大模型“能力类别-能力等级-应用场景”关系映射图,如下所示。
语言大模型“能力类别-能力等级-应用场景”关系映射图
典型模型能力等级评定
针对5大类、27小类模型能力,构建了丰富的评测样本集,对业界超30款主流模型进行测试、打分、统计和分析,给出模型在每个能力类别上的得分,评定模型能力等级。详细评测结果已上线元景MaaS平台,其中部分结果如下图所示。
典型模型能力评测结果展示
选型使用说明书构建
基于模型能力等级评定结果,结合“能力类别-能力等级-应用场景”关系图谱,建立超30款典型模型与105个典型应用场景间的匹配关系,形成“典型模型-能力类别-能力等级-应用场景”关系图谱,作为《大模型选型说明书》,部分内容如下所示。
“典型模型-能力类别-能力等级-应用场景”关系图谱
应用赋能和迭代更新
《大模型选型说明书》作为业界首个语言大模型选型经验指南,一方面可以帮助开发者根据应用场景找到兼顾性能和成本的高性价比模型,另一方面提供了每个模型能胜任的典型应用场景,为模型选型决策提供经验参考,极大降低大模型开发应用技术门槛。
目前,已赋能电信反诈、智能工单、客服助手、手机自动驾驶、深度研究等超20个应用场景落地。未来,中国联通数据科学与人工智能研究院将持续扩充评测模型库和典型应用场景,动态更新《大模型选型说明书》,确保其始终反映技术前沿与市场变化。
联通元景大模型将继续秉承“多模共生、普惠速成、场景深耕、数智融合、安全自主”五大特性,构建多模共生的模型家族,打造普惠速成的MaaS平台,开发场景深耕的智能体应用,助力千行百业实现智能化升级,加速人工智能+的推广应用,让人工智能更简单。
相关文章
- 模型选型专题系列 | “一句话选模型”智能体,助你告别模型选型困境
- 苹果为Siri开发的AI搜索工具或将利用谷歌的Gemini AI模型来汇总网络信息
- 获央视点赞 深兰科技AI医疗大模型落地打浦桥街道社区服务中心
- 新达内与百度智能云达成战略合作 联合培养人工智能大模型人才
- 斑马AI大模型:为每个孩子提供专属学习方案
- 知识图谱人岗匹配模型为人力资源智能化转型提供新引擎
- 打造广东首个地方文献专题处理AI大模型,南沙区图书馆“阿贝数字人”项目重磅上线!
- 2025年基金中报划重点!泓德基金李子昂:不断迭代模型更好适应市场
- 微软人工智能推出首批自研模型MAI-Voice-1语音模型与MAI-1预览版
- 商汤大装置跻身中国大模型平台市场头部厂商,万象平台加速AI落地“最后一公里”
- 元戎启行发布VLA模型,解决智驾用户“黑盒”难题
- DFRobot 亮相贸泽电子 elexcon 2025 展台,展示与Qwen3 大模型融合的AI 应用
- 旷视赵康:做大模型的“炼金术士”,让AI在千行百业中兑现价值
- 云轴科技ZStack入选IDC大模型推理算力市场报告典型厂商
- 中国具身大模型初创公司眸深智能获得IJCAI2025杰出论文奖,唯一获奖大陆团队!
- 苹果与谷歌洽谈使用Gemini AI模型改造Siri