受发展心理学启发,研究员开发出能预测物体运动的AI模型
2020-02-28 17:41:15AI云资讯1187
人类可以轻松地识别事物并对其行为进行推理,这是我们认知发展的核心。即使是儿童,他们也会根据物体动态对其进行细分,并用持久性、稳定性、连续性的概念来解释物体发生了什么,以及推测在其他情况下物体会发生什么。
受此启发,为了简化人工智能模型的视觉识别问题,来自麻省理工学院-IBM Watson人工智能实验室、麻省理工学院计算机科学与人工智能实验室、DeepMind和哈佛大学的一组研究人员引入了一套动态视频推理基准——CLEVRER,并开发出了一套能预测物体运动的模型。
CLEVRER包含了由物理引擎生成的2万多个时长为5秒的碰撞物体视频,每个视频里包含了三种形状、两种材料和八种颜色。同时还包括30多万个问题和答案。这些视频和问题全部都集中在逻辑推理的四个要素上:描述,什么颜色;说明,什么原因造成;预测,接下去会发生什么;反事实,如果发什么。

模型运行示意图
通过解析CLEVRER,研究人员确定了在描述性、解释性、预测性和反事实性问题上,训练AI模型需要的内容,分别是:对物体、事件之间的运动、因果关系,以及背后的逻辑关系进行推理的符号描述。随后,研究人员据此开发了神经符号动态推理模型(NS-DR)。
这个模型实际由四个部分合成。分别是:视频帧解析器,神经动态预测器,问题解析器和符号程序执行器。给定输入视频,视频帧解析器会检测场景中的对象并提取其轨迹和属性(即位置,颜色,形状,材质)。形成视频的抽象描述后,将其发送到神经动态预测器以预测对象的运动和碰撞。问题解析器接收输入问题以获得代表其逻辑的功能程序。然后,符号程序执行器在动态场景上运行该程序并输出答案。
根据该团队报告,在用1000个程序应用了该模型后,他们的模型对问题的识别准确率达到了88.1%,优于其他基准模型。在解释性,预测性和反事实性问题上,则有更好的表现。
研究人员指出:“ NS-DR 将动态规划纳入视觉推理任务中,可以直接预测未观察到的运动和事件,并可为预测性和反事实性任务启用。其次,符号描述为视觉,语言,动力和因果关系提供了强大的基础。通过设计,它使模型能够明确捕捉视频的因果结构和问题背后的逻辑构成。”
不过,研究人员也承认,即便训练所需的数据量相对较少,但模型在实际应用中仍很难使用。此外,在需要长期动态预测的任务(例如反事实问题)上,NS-DR的性能也没有那么高,这表明未来仍需要一种能够生成更稳定和准确轨迹的动态模型。
相关文章
- 阳台储能开创者疆海科技完成数亿元 B 轮融资,押注 AI 时代的家庭能源中心
- 开源!鲸智百应升级,浩鲸科技重新定义企业AI原生
- 万兆AI惠商 联通美好未来 ——中国联通东莞市分公司5・17 电信日暨联通客户日活动圆满举行
- 中国联通在北京地区携手华为发布3000M宽带新产品,全光臻宽带矩阵为“双万兆AI提质行动”添砖加瓦
- 超显商城整合核心GLED显示技术,开启显示设备AI定制新模式
- 博大数据荣膺“全球AI生态基石大奖”,夯实融合算力基础设施服务商领先地位
- 全国人工智能发展大会 AI HANGZHOU 2026中国(杭州)国际人工智能展览会
- 酷开发布企业AI操作系统 开启硅基管理新时代
- 酷开AIOS:定义“企业AI操作系统”的野心与挑战
- 华为超千兆新品亮相山西!三频Wi-Fi 7+AI 焕新智慧家庭新生活
- 辽宁与华为联合发布超千兆三频Wi-Fi 7+AI 新品,共筑辽沈智慧家庭新生活
- 亿达科创亮相国际人工智能展再获AI大奖
- 花旗银行报告称,台积电在AI领域的主导地位不会受到英特尔威胁
- 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局
- 与AI同行 3000M助力 共创智家新生活——中国联通品牌与产品辽宁宣传推广会 全面启动联通社区惠民行系列行动
- 以创新设计重塑 AI 路由未来,MOVA LINCO X1 Pro 荣膺红点奖
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









