自变量机器人王昊：训练世界模型需付出“时间税”，解决模态对齐是当务之急-AI云资讯

近日，2026北京智源大会召开。世界模型作为具身智能模型的最新范式，论坛吸引了广泛关注。自变量机器人联合创始人兼CTO王昊，分享了“事件驱动的世界模型”的前沿成果。

王昊表示，所有的智能都是在特定尺度下涌现出来的。需要找到不同模态各自表示的尺度，加上规模化，最终才能通向多模态基础模型。

过去在大语言模型上存在着“对齐税”，与之类似，目前训练世界模型的方式也需要付出“时间税”，这是以固定长度定义世界预测长度的弊端。

自变量近期发布的“事件级”世界模型WALL-WM，则使用以事件为边界拆分数据的方法，实现语言、视觉和动作的更好的对齐。自变量发现，事件是连接语言、视觉和动作的天然尺度：事件是基于语言表达，因此边界清晰；视觉也由事件分割，同一事件内的动作更容易预测。“以事件为尺度做变长分割，能够实现对三个模态的天然统一。”王昊表示。

以事件为数据边界训练的世界模型WALL-WM，也在多个测试上都取得了出色效果：

具身视频生成方面，在运动质量、语义一致性和物理合理性上，都超过WAN 2.1 / WAN 2.2；在隐式3D感知和多视角一致性上，全面优于目前开源视觉模型

；在真机测试方面，在基础任务、推理任务、灵巧任务、泛化任务等四大类操作评测benchmark上，分数大幅超过π 0.5、DreamZero。

据公开信息，自变量机器人是国内最早采用完全端到端路径，实现通用具身智能大模型的公司之一。其近期开源的VLA模型Wall-OSS-0.5，实现了在自研本体上部分任务仅需预训练、无需后训练，就能接近过去后训练微调后的零样本泛化水平。开源的数采方案XRZero-G0 则构建起一套软硬一体的全身无本体数采与训练系统，能将数据采集成本降低到过去的1/20。

自变量机器人王昊：训练世界模型需付出“时间税”，解决模态对齐是当务之急

相关文章

AI企业

AI硬件

AI产业

AI技术