DeepMind研究人员研发出了一种解决机器人控制问题的混合方案
2020-01-10 13:21:04AI云资讯1095
机器人技术的基本问题既涉及离散变量(比如控制模式或齿轮切换的选择),又涉及连续变量(比如速度设定点和控制增益)。通常来说,由于算法或控制策略并不总是适合的,因此这些问题很难解决。这就是为什么谷歌母公司Alphabet的DeepMind的研究人员最近提出了一种技术:连续-离散混合学习,即可以同时优化离散和连续动作,以其本来的形式处理混合问题。

在预印本服务器Arxiv.org上发表的一篇论文详细介绍了他们的工作,这篇论文也在去年10月日本大阪的第三届机器人学习会议上被人接受。作者写道:“许多先进的方法都进行了优化,它们能很好处理离散的或是连续的动作空间,但是却很少有方法能同时处理。能够使用同一算法强大地处理离散和连续动作空间,使我们能够针对任何给定问题都能选择最自然的解决方案策略,而不是让算法上的便利性来决定做出哪种选择。”
团队研发的无模型算法,是指利用强化学习或者奖励实现目标的自主代理人的培训技术,通过连续和离散动作空间来解决控制问题,并通过受控和自主切换来解决混合最优控制问题。此外,这种算法通过使用“元动作”或其他类似方案来扩大动作空间(分别定义了代理人可能感知和采取的状态和动作的范围),从而为解决现有的机器人问题提供了新颖的解决方案,并使策略可以解决类似人工智能训练期间的机械磨损等挑战 。

来源:DeepMind
DeepMind机器人技术
研究人员在一系列模拟和现实基准测试中验证了他们的方法,包括Rethink Robotics公司的Sawyer机器人手臂。据称,基于给定的到达、抓取和拿起魔方的任务,其中奖励是三个子任务的总和,因此他们的算法要优于无法解决任务的现有方法。
那是因为到达魔方需要代理人打开手臂的抓具,而抓取方块需要关闭抓具。作者写道:“一开始,基线将大部分概率集中在较小的动作值上,因此很难移动抓具的手指来看到任何奖励,从而解释了学习曲线上的平稳期。另一方面,这个算法能始终以全速操作抓具,因此改进了探查性,使机器人可以完全完成任务。”
在一个单独的实验中,团队将其算法设置为参数化动作空间马尔可夫决策过程(PAMDP)或一个分层问题,其中,代理人首先选择离散动作,然后为该动作选择一组连续的参数集。在这种情况下,代理人的任务是操纵机器人手臂,以便将钉子插入孔中,然后根据孔的位置和运动学来计算奖励。
研究人员表示,他们的方法比精细方法和粗略方法获得了更大的回报,并且这种算法将来可以作为基础应用到更多的混合强化学习中。论文中写道:“对于专业设计师而言,事先选择合适的模式可能很困难。而我们的方法是很有用的,因为它只需要一个实验,而别的方法都需要通过消融来进行验证。”
相关文章
- 五度斩获机器人界“奥斯卡”!极智嘉具身智能技术跻身全球第一梯队
- 短途出行机器人QUORRA X5出海订单覆盖欧美,头部资本加持正奇未来布局全球
- 远也科技助力安踏“人工肌腱”:机器人技术加速运动装备智能化升级
- 2025人形机器人行业报告:宇树出货量与市场占比双第一
- 菲沃泰亮相2026杭州国际人形机器人展:纳米镀膜技术赋能机器人全场景防护
- 以“手”驭智,拾玥科技亮相2026杭州人形机器人展,指尖黑科技破局精细操作难题
- 追觅AURORA用“机器人思维”重塑手机:打造主动AI终端
- 灵童机器人发布新一代桌面人形机器人 启动1000台全球共创计划
- 珞石机器人亮相CIBF2026深圳电池展,共启锂电智造新未来
- 灵初智能的技术路线:让机器人从“完成动作”走向“理解任务”
- 以技术破局,智领全球丨高仙商用清洁机器人登顶全球
- 千觉机器人亮相第七届上海创新创业青年50人论坛,以触觉智能展现硬科技创业力量
- 欣旺达携手海柔创新,以仓储机器人实现锂电制造产仓一体化
- 中轴线北延主题市集点亮仪式启幕,双足机器人助阵尽显科技活力
- 四维图新携鉴智机器人全链路交付 征程6B量产落地广汽丰田铂智3X
- 直击万级SKU仓储痛点!极智嘉AI机器人赋能广州华通丰田高效履约
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









