重磅!元景屏幕操控智能体助力联通云智手机“自动驾驶”大规模商用
2025-09-03 11:08:50AI云资讯3264
近日,联通云智手机开放了“手机自动驾驶”功能的大规模商用,实现“一句话操控手机App”的功能。该功能背后的核心能力,是中国联通数据科学与人工智能研究院自研的元景屏幕操控智能体和元景多模态GUI模型。凭借元景多模态GUI模型对屏幕内容的精确理解和操控任务的精准规划,元景屏幕操控智能体为手机、PAD、电脑等多类硬件的App自动操控提供了有力支撑。
元景屏幕操控智能体
元景屏幕操控智能体能够像人类一样自动理解和操作智能设备的屏幕界面。用户只需要简单地输入一个指令,比如“打开携程预定车票”、“QQ音乐播放音乐”、或者“使用高德打车到指定位置”,屏幕操控智能体就能自动完成一系列复杂的操作,无需用户手动点击、输入或切换应用,大大节省了时间和精力。

联通云智手机“自动播放”功能演示视频截图(QQ音乐)
元景屏幕操控智能体秘诀就在下图中。当用户发出指令后,屏幕操控智能体会先对当前屏幕进行“拍照”,然后将这张“照片”和用户的指令一起发送给元景多模态GUI模型。模型会分析当前屏幕上的各种元素(比如按钮、文本框、图标等)、理解用户的需求,并规划出接下来的操作步骤,比如点击某个按钮、输入文字、滑动屏幕等。然后,智能体就会按照这些步骤精准地操作设备。

元景屏幕操控智能体架构
如果屏幕操控智能体在自动操作过程中遇到需要输入敏感信息的环节,比如登录账号、输入密码或者支付环节,其还会暂停操作并提醒用户手动确认,以确保用户的隐私和安全。在用户完成输入后,智能体会继续自动操作,直至用户的操作指令执行完毕。
以下视频展示了元景屏幕操控智能体在手机上完成“打开携程,帮我预定9月10日从成都到北京的飞机票,选择07:55出发的那趟航班。”这一任务的工作流程:智能体会基于当前屏幕截图和用户指令,逐步模拟人类操作手机,直到到达支付界面,提醒用户支付。

联通云智手机“携程订飞机票”步骤演示视频截图
元景屏幕操控智能体使得各类智能设备的操控操作变得更加简单,尤其对老人、儿童等对智能设备操作不太熟悉的群体,提供了更加便利的操作方式。比如,老人想给远在他乡的孩子发一条信息,只需要说“给儿子发个消息,说我想他了”,智能体就能自动打开消息应用,输入文字并发送;孩子想听一首歌,只需要说“播放周杰伦的《稻香》”,智能体就能自动找到歌曲并播放。对于上班族来说,它也能大大提升工作效率。比如需要快速完成各类申请、信息查询、订票、点外卖等操作时,都可以通过一句话的指令自动完成。
元景多模态GUI模型
作为元景屏幕操控智能体的核心,元景多模态GUI模型基于自研的创新复合视觉编码模块和元景语言模型构建,具备对多种屏幕内容的精确理解和多步复杂操作任务的高效精准规划能力,其中,复合视觉模块融合了CNN(ConvNext)和ViT(Siglip、InternViT)两类视觉编码器,能够在捕获图像细节以及空间特征的同时,全面理解图像全局信息,从而实现了屏幕内容的鲁棒视觉表征。
同时,为了支持动态分辨率输入,复合视觉编码模块除了块内的位置编码外,还对每个patch之间添加2D图像位置编码,从而加强了GUI模型对位置信息的感知。

元景多模态GUI模型架构
元景多模态GUI模型使用了大量屏幕控制相关的识别定位和多步任务规划图文数据,覆盖了不同操作系统的应用、网页、系统设置等界面,使得模型在准确理解用户输入文本指令的同时,能够精准识别和定位屏幕上的各种图形和界面元素,并规划出复杂的多步操作任务,就像拥有一双“火眼金睛”和一个“超级大脑”。
在模型训练方面,采用了GPRO进行自适应的强化学习训练,进一步提升了交互决策的准确率和泛化能力。在业界权威的GUI模型评测基准ScreenSpot-V2上,元景多模态GUI模型得分90.5%,排名前三,接近人类专家水平。

元景多模态GUI模型在ScreenSpot-V2基准上排名前三
为尽量缩短屏幕操控任务的整体时长,元景多模态GUI模型在多步推理速度方面也进行了大量的优化。
首先,在不同任务的操控逻辑上,通过优化操作路径进行了整体执行效率的提升。相比传统模型“逐步试探式”的指令链条,我们能够基于上下文理解,智能选择更少、更准、更优的操作步骤,规避冗余和重复指令,确保以最短路径完成任务。这就像为任务规划一条既快捷又高质量的“智能驾驶路线”,显著提升整体操作流畅度和用户体验。
同时,团队通过采取模型优化、推理加速等方式,进一步提升了模型的推理效率,使模型的整体响应速度较业界主流模型提升超过50%。
当前,中国联通数据科学与人工智能研究院自研的元景屏幕操控智能体和元景多模态GUI模型已支持主流App的操控,涵盖社交、娱乐、出行、购物、信息服务等常见使用场景。针对企业专属App,其也体现了强大的通用性和适配能力,当前已支持多个企业内部App的自动操控,并覆盖了手机、电脑、车载设备等多类终端的不同操作系统。
未来,它还将支持企业ERP系统、工业控制系统等复杂业务环境的自动操控,进一步提升跨平台、定制化应用的智能化水平,让各类智能设备的操作更加高效、便捷与安全。作为多模共生的元景模型家族的重要组成部分,元景多模态模型将为更多行业场景提供标准化、模块化的智能交互解决方案,推动多模态AI真正走进千行百业,助力行业数字化转型提质增效。
相关文章
- 中国联通圆满完成神舟二十三号载人飞船发射通信保障
- 中国联通品牌推广与IPTV智能体发布暨终端生态大会在肥举行
- 通信×航空×智造:联通客户日首进埃安工厂
- 焕新智能体验 晋享魔方时代——联通魔方山西推广品鉴会暨2026年5月总经理接待日圆满举办
- 智筑通信防线 护航数字三晋——中国联通圆满完成2026年世界电信和信息社会日应急演练
- 连夜攻坚、极速响应!—中国联通保障省电信日主题活动
- 中国联通完成全市高铁及地铁线路 全线移网通信保障工作
- 万兆AI惠商 联通美好未来 ——中国联通东莞市分公司5・17 电信日暨联通客户日活动圆满举行
- 中国联通在北京地区携手华为发布3000M宽带新产品,全光臻宽带矩阵为“双万兆AI提质行动”添砖加瓦
- 从“能播”到“智播” 中国联通发布“联通智播”产品赋能“广货行天下”
- 服务再升级,中国联通携华为在云南发布2000M智慧产品
- 中国联通青海省分公司新品发布会圆满举行:聚焦四大赛道,筑牢高原数字基石
- 与AI同行 3000M助力 共创智家新生活——中国联通品牌与产品辽宁宣传推广会 全面启动联通社区惠民行系列行动
- 中国联通品牌与产品北京宣传推广会全面启动双万兆AI提质行动: 5G-A大上行正式商用,定义AI体验新基准
- 中国联通公众客户事业部副总经理周淳:以万兆超宽带赋能全屋智慧生态
- 智启安全新范式 护航数字强国梦——联通墨攻新品发布
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力









