从“用数据“到“造数据“:桥介数物正式启用“跨本体全身运动数据工厂”
2026-05-26 09:07:06AI云资讯2001
近日,具身智能领域的头部运动控制研发商桥介数物(BridgeDP Robotics)宣布,其自建的"跨本体全身运动数据工厂"(下文简称"运动数据工厂")正式投入使用。该中心短期内将聚焦运动控制领域,以工业化、规模化的方式采集高质量的跨本体全身运动数据,并通过标准化数据管线与训练回流机制,构建"设计—采集—处理—训练—反馈"的数据闭环体系,为其自研的通用运动控制平台打造可持续演进的数据基础设施。

近年来,具身智能正经历从"算法驱动"向"数据驱动"的范式跃迁,行业对物理世界数据的需求快速增长。这一变化的背后,集中体现在以下三个层面:
首先,模型范式正在升级。早期机器人更多依赖"专家逻辑",需要工程师手动编写控制规则,并通过少量实验数据进行验证。随着行业转向更先进的大模型体系,机器人同样开始呈现出 Scaling Law(规模定律)的特征:模型参数规模越大,对动作数据的需求量也越大。要让机器人像 ChatGPT 理解文字一样理解物理世界,所需的是百万甚至千万小时级别的"环境—动作"配对数据,数据缺口由此被迅速放大。
其次,工作场景正在从结构化走向非结构化。早期机器人主要在工厂、实验室等结构化场景中运行,地面平整、节拍固定、扰动可控;而通用机器人需要走出实验室,进入家庭、户外、工地、商超等真实环境,面对几乎无穷无尽的长尾场景。以"行走"为例,看似单一的动作,落到瓷砖、地毯、湿滑路面、草地、楼梯、斜坡等不同地形上,所需的步态、重心调度与关节力矩完全不同;再叠加负重变化、被人推搡、踩空、绊倒等突发扰动,同时本体还需在极短时间内完成姿态恢复。面对这些复杂变量,传统实验室数据采集方式与模态难以满足需求。数据不再只是训练素材,而是决定机器人能否从实验室走向商业化应用的核心战略资源。
最后,高维物理交互数据正在成为关键门槛。传统工业机器人通常只需在固定坐标点之间重复执行动作,并不需要真正理解环境与自身,因此对高维数据的需求较低。而当通用机器人进入家庭、户外、工地等复杂环境后,关节力矩、足底压力、本体感知(IMU、姿态、动量)、地面摩擦与动力学响应都成为必须解决的问题。互联网上的海量视频虽然内容丰富,但本质上主要是"RGB×时间"的像素组合,更多提供的是视觉语义信息——它可以告诉机器人"前面是一段楼梯",却无法准确告诉机器人"上这级台阶需要多大的蹬伸力""踩到湿滑路面时该如何调整重心才能不摔倒"等关键物理信息。
近两年,头部具身智能本体厂商与上游企业已陆续把"数据"列入战略议程,只是这股趋势在不同方向上的落点并不均衡——运动控制相关的数据建设至今仍是一片明显的洼地,甚至可以说是"真空地带":行业内现有的运动控制数据普遍存在供应不足、质量参差不齐、构型与场景局限性大等问题,远远跟不上模型训练所需的规模。
造成这一局面的原因是多重的。一方面,运动控制领域技术门槛高、研发成本高、投入产出周期长,愿意长期深耕这一方向的企业本就凤毛麟角,能够持续为该领域生产高质量数据的服务商自然更为稀少;另一方面,传统的数据工厂更倾向于围绕"操作(Manipulation)"任务采集数据,原因也很现实——相比之下,这类数据在当下阶段的商业路径更为清晰。
面对这样的行业现状,桥介数物于半年前启动了自建运动数据工厂的规划工作。该决策既是桥介数物对行业数据荒的主动回应,也源于其自身业务发展的长期需求。具体而言,桥介数物将在短期内聚焦运动控制领域,通过工业化手段大规模采集高质量的跨本体全身运动数据,逐步解决通用跨本体运动控制平台训练中的数据瓶颈,为自研平台打造可靠的数据基础设施。这一举措不仅直面行业当下的数据困境,也标志着桥介数物正在从"依赖数据输血"走向"自主生产数据"的能力跃迁。
打造数据闭环,构建面向真实世界的能力演进体系当以规模取胜的"暴力美学"技术路径逐渐成为具身智能行业的主流,"数据稀缺"正从资源问题演变为能力问题。企业能否持续获取、处理并回流真实物理交互数据,正在成为新的竞争分水岭。
与此同时,数据规模固然决定具身智能模型演进的覆盖广度,但数据质量(包括物理一致性、高保真度和可复用性)才是决定模型实机表现(In-fieldPerformance)能否对齐训练预期的核心因素。单纯依赖数据规模扩张的方式正面临边际效益递减,行业竞争的重心正在转向高价值样本的工程化定义、标准化生产与精细化清洗。
在桥介数物看来,运动数据工厂不仅是数据获取端,更是数据闭环体系的起始节点。其核心逻辑,在于将数据置于"设计—采集—处理—训练—反馈"的闭环链路中,从而提升单条数据的有效利用率,让数据价值得到最大化释放。
首先是前置定义与标准化采集。在采集启动前,桥介数物会建立涵盖动作分类、质量权重、标签维度、环境参数、位姿信息及质检标准在内的准入体系,从物理层面确保原始数据的一致性与保真度。
其次是自动化数据管线处理。原始数据进入训练环节前,将通过自研管线完成跨本体的数据清洗、动作重定向(retargeting)、异常修复及检索调度,减少人工干预带来的不确定性,并提高数据产出效率。得益于动作重定向等核心环节,运动数据工厂的运动数据不再绑定特定的机器人构型,而是可以便捷迁移至不同目标本体。区别于业内常见的"一种本体对应一套数据"模式,这种机制让数据的可复用性与跨本体迁移效率都有显著提升。
最后是基于训练表现的逆向反馈。训练过程中的动作偏差、覆盖率、适配成功率等定量信号,将实时回传至采集中心;这些反馈会直接指导下一轮采集计划的参数设定与动作筛选,实现从算法表现到数据生产的闭环调优。
当前,行业正逐步从"模型驱动"走向"数据驱动"的新阶段。对桥介数物而言,这也意味着要从"打造能力"进一步走向"用数据持续放大能力"。过去几年,桥介数物已服务 30 余家具身智能企业,完成 50 余款不同型号机器人本体的训练与部署,并正在逐步将过往的项目经验沉淀为通用型平台能力。这一过程不仅需要大量数据,更需要数据在整个研发流程中形成闭环,使平台从依赖项目经验的离散优化,逐步转向由数据持续驱动的规模化迭代。由此,平台整体能力的演进也将变得更加稳定、可预测。
"数据不仅决定模型效果的上限和产品迭代速度,还会为公司的长期发展构筑壁垒。"桥介数物创始人尚阳星表示,"算法会被追赶,工具链会被模仿,但高质量、可持续、低成本、带反馈闭环的数据体系,很难被快速复制。"
随着通用运动控制平台能力不断提升,运动数据工厂持续产出的高物理保真动作数据,也将被验证为高质量、可复用的资产,有望沉淀出独立的产业价值。运动数据工厂的角色也将由此延展:从内部数据生产单元,逐步演进为面向行业的数据供给方与行业标准的共建者。
总体来看,运动数据工厂的投入使用,无论对现阶段还是未来的桥介数物而言,都具有深远意义。它不仅是桥介数物提升运动控制平台训练效率与泛化能力的重要支撑,也将成为其构建通用运动控制底座的关键数据基础设施。
相关文章
- 每日互动智能营销AITA:10亿+大数据支撑,可信可靠的AI营销神器
- 华为升级AI数据基础设施系列产品与方案,构筑金融数据底座
- 把钱花在更接近结果的地方:钛动科技用数据把跨平台预算分配讲清楚
- 桥介数物跨本体全身运动数据工厂:通用全身运动模型的数据基础设施
- 国家数据基础设施辽宁节点引入第三方力量,云谷数科激活数据流通双通道
- 从冷源到算力:美的楼宇科技在马来西亚展示数据中心“终极冷却”矩阵
- 高端设计制造业SD-WAN跨域组网深度解析:头部无人机企业如何实现异地数据高效安全回传和协作
- 数智赋能通信 创新引领未来 上海通信行业数据创新实验室(移动)发布
- Anthropic每年向埃隆·马斯克的数据中心支付150亿美元以获取使用权限
- 思瑞浦 AI 数据中心全栈模拟芯片方案,构筑坚实智算根基
- 融算于网,敏捷生长——博大数据打造高韧性的数字生态基础设施
- 戴尔科技重新定义现代化数据中心,引领智能时代
- 同盾科技参编隐私计算报告,筑牢金融数据安全流通新基座
- 擎策·知海数据库商标检索重大升级:国内国际数据双扩容,总量突破2.03亿条
- 博大数据荣膺“全球AI生态基石大奖”,夯实融合算力基础设施服务商领先地位
- 趣链科技携手生态伙伴,探索具身智能数据可信流转新路径
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









