DeepMind研究人员研发出了一种解决机器人控制问题的混合方案
2020-01-10 13:21:04AI云资讯1091
机器人技术的基本问题既涉及离散变量(比如控制模式或齿轮切换的选择),又涉及连续变量(比如速度设定点和控制增益)。通常来说,由于算法或控制策略并不总是适合的,因此这些问题很难解决。这就是为什么谷歌母公司Alphabet的DeepMind的研究人员最近提出了一种技术:连续-离散混合学习,即可以同时优化离散和连续动作,以其本来的形式处理混合问题。

在预印本服务器Arxiv.org上发表的一篇论文详细介绍了他们的工作,这篇论文也在去年10月日本大阪的第三届机器人学习会议上被人接受。作者写道:“许多先进的方法都进行了优化,它们能很好处理离散的或是连续的动作空间,但是却很少有方法能同时处理。能够使用同一算法强大地处理离散和连续动作空间,使我们能够针对任何给定问题都能选择最自然的解决方案策略,而不是让算法上的便利性来决定做出哪种选择。”
团队研发的无模型算法,是指利用强化学习或者奖励实现目标的自主代理人的培训技术,通过连续和离散动作空间来解决控制问题,并通过受控和自主切换来解决混合最优控制问题。此外,这种算法通过使用“元动作”或其他类似方案来扩大动作空间(分别定义了代理人可能感知和采取的状态和动作的范围),从而为解决现有的机器人问题提供了新颖的解决方案,并使策略可以解决类似人工智能训练期间的机械磨损等挑战 。

来源:DeepMind
DeepMind机器人技术
研究人员在一系列模拟和现实基准测试中验证了他们的方法,包括Rethink Robotics公司的Sawyer机器人手臂。据称,基于给定的到达、抓取和拿起魔方的任务,其中奖励是三个子任务的总和,因此他们的算法要优于无法解决任务的现有方法。
那是因为到达魔方需要代理人打开手臂的抓具,而抓取方块需要关闭抓具。作者写道:“一开始,基线将大部分概率集中在较小的动作值上,因此很难移动抓具的手指来看到任何奖励,从而解释了学习曲线上的平稳期。另一方面,这个算法能始终以全速操作抓具,因此改进了探查性,使机器人可以完全完成任务。”
在一个单独的实验中,团队将其算法设置为参数化动作空间马尔可夫决策过程(PAMDP)或一个分层问题,其中,代理人首先选择离散动作,然后为该动作选择一组连续的参数集。在这种情况下,代理人的任务是操纵机器人手臂,以便将钉子插入孔中,然后根据孔的位置和运动学来计算奖励。
研究人员表示,他们的方法比精细方法和粗略方法获得了更大的回报,并且这种算法将来可以作为基础应用到更多的混合强化学习中。论文中写道:“对于专业设计师而言,事先选择合适的模式可能很困难。而我们的方法是很有用的,因为它只需要一个实验,而别的方法都需要通过消融来进行验证。”
相关文章
- 珞石机器人亮相CIBF2026深圳电池展,共启锂电智造新未来
- 灵初智能的技术路线:让机器人从“完成动作”走向“理解任务”
- 以技术破局,智领全球丨高仙商用清洁机器人登顶全球
- 千觉机器人亮相第七届上海创新创业青年50人论坛,以触觉智能展现硬科技创业力量
- 欣旺达携手海柔创新,以仓储机器人实现锂电制造产仓一体化
- 中轴线北延主题市集点亮仪式启幕,双足机器人助阵尽显科技活力
- 四维图新携鉴智机器人全链路交付 征程6B量产落地广汽丰田铂智3X
- 直击万级SKU仓储痛点!极智嘉AI机器人赋能广州华通丰田高效履约
- 林德自动化亮相机器人产业质量安全盛会,以安全可靠理念赋能产业健康发展
- 获新华网重磅报道!科大能通AI储能充电机器人闪耀第四届中国科交会
- 机器人租赁平台——机时租五一小长假火力全开
- 清华系航天及船舶机器人知有无界完成松禾资本、卓源亚洲天使轮融资
- 擎天租X瑞安办公战略携手,共创“机器人+”智慧空间新范式
- 奇瑞布局机器人产业:T+T战略引领 推动智能汽车技术向具身智能延伸
- 千年石窟遇上赛博力士——机器人舞蹈快闪“五一”亮相云冈石窟
- 朗誉机器人亮相汉诺威工博会 领跑全球重载智能转运新赛道
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









