Om AI联汇发布VLX:全球首个面向物理世界的端侧流式多模态模型
2026-06-30 10:37:54AI云资讯1748
当AI从屏幕走向真实的物理世界,多模态模型正迎来一次架构范式的革新。
Om AI联汇正式发布全球首个面向物理世界的端侧流式多模态模型系列——VLX,首次在业界提出“流式多模态”这一全新模型架构。区别于传统视频理解模型将整段视频切帧后一次性离线处理的方式,VLX系列面向物理世界中持续涌入的视频流,以流式编码与缓存增量推理实现毫秒级实时感知,并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。

VLX系列由三款模型协同构成,围绕实时物理智能构建完整能力体系:VLX-Flow负责持续感知,通过增量编码与缓存推理机制,让模型像人一样持续观察环境而非被动等待提问,新画面随时吸收,提问瞬间响应。VLX-Seek负责精准定位,创新性地将坐标生成转化为区域检索——不是让模型“猜坐标”,而是从候选区域中“选区域”,为端侧设备提供可靠的空间感知能力。VLX-Go负责行动执行,将视觉理解直接转化为机器人可执行的短时航点与运动轨迹,而非输出文本建议,让设备自主完成跟随、避障与导航。
在这一全新范式下,视觉信息不是以“截一帧”的方式进入模型,而是以“连续流”的方式持续进入。模型不是“看完再说”,而是“边看边理解、必要时主动行动”。这对应的不是“更好的人机对话体验”,而是“AI自主工作能力的质变”。
为了应对物理世界的AI必须直面三个刚性约束:时间是连续的、环境是动态变化的、终端算力是资源受限的,VLX系列完全围绕实时视频流与端侧设备原生构建——不是将云端模型压缩后塞进终端,而是从架构层面为端侧具身智能重新设计——以“快(流式推理,单路延迟最低0.06秒)、小(轻量化选型,覆盖0.6B至10B规格)、准(细粒度定位)、行(感知执行闭环)”四大优势,实现从持续感知到行动决策的端侧闭环。
当多模态模型从“看图答题”走向“持续感知”,当AI从屏幕走向真实的物理世界,VLX端侧流式多模态模型系列为物理AI的演进提供了一种全新的架构范式——让每一台终端都能拥有持续理解、即时决策、自主行动的能力,这才是物理世界AI应有的样子。
相关文章
- 一句话完成合同审批全流程,合合信息联合亚马逊云科技打造多模态文档智能体
- 物理世界智能的优化:从文本思考到多模态思考
- 深耕AI+音视频二十载,佰锐科技多模态行为风险识别跻身行业第一梯队
- 数据的第三种形态:艺恩如何为大模型提供多模态的数据弹药?
- 算力与模型同频共振:天数智芯Day 0 深度适配 SenseNova U1,共筑多模态AI新底座
- 专攻AI供应链治理痛点!多模态SCA智能情报驱动,以AI治理AI实现全域风险可控!
- VPU:多模态AI时代下的视频算力变革
- 海康威视徐习明:聚焦感知多模态大模型,为中国制造业发展服务
- 天数智芯完成Qwen3.5 多模态模型全量适配 全栈技术筑牢生态适配硬实力
- 直击AI多模态媒资痛点!当虹科技荣获浙江省科学技术进步奖
- 小度全系产品将集结亮相AWE 2026,“超能小度”多模态能力成最大看点
- 全球首秀!讯飞AI眼镜亮相MWC,多模态同传大模型与极致轻量化设计 引领智能穿戴新风向
- 合合信息发布多模态大模型文本智能白皮书,破解复杂文档处理困局
- 合合信息发布多模态大模型文本智能白皮书,五大核心能力标准引领复杂文档处理变革
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 三维天地推出多模态数据湖产品SW-DBLake,重新定义AI时代的数据基石
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代









