深度强化学习为人工智能系统注入“灵魂” 可让四足机器人自己学走路
2019-01-02 10:31:13AI云资讯1294
		
	
人工智能(AI)系统使得机器人能够以人类灵巧的方式掌握和操纵物体,现在,研究人员表示他们已经开发出一种算法,通过这种算法,机器可以自己学会走路。在Arxiv.org上发表的一份预印本论文中(“通过深度强化学习来学习走路”),加州大学伯克利分校的科学家和谷歌人工智能(AI)研究部门之一Google Brain描述了一种人工智能系统,教“一个四足机器人来穿越熟悉和不熟悉的地形。
“深度强化学习可以用于自动获取一系列机器人任务的控制器,从而实现将感知输入映射到低级别动作的策略的端到端学习。”该论文的作者解释道。 “如果我们可以直接在现实世界中从头开始学习运动步态,原则上我们就能获得最适合每个机器人、甚至适合单个地形的控制器,潜在地实现更好的敏捷性、能源效率和稳健性。”
设计挑战是双重的。强化学习是一种使用奖励或惩罚来驱动代替人实现目标的人工智能培训技术,它需要大量数据,在某些情况下需要数万个样本才能获得良好的结果。并且微调机器人系统的超参数 —— 即确定其结构的参数 —— 通常需要多次训练,这可能会随着时间的推移对腿式机器人造成伤害。
“深度强化学习已被广??泛用于模拟中的学习运动策略,甚至将它们转移到现实世界的机器人中,但由于模拟中的差异,这不可避免地导致性能损失,并且需要大量的手动建模。”该论文的作者指出,“在现实世界中使用这些算法已经证明具有挑战性。”
为了找到一种方法,用研究人员的话说,“(使)一个系统在没有模拟训练的情况下学习运动技能成为可能,他们选择了一种称为“最大熵RL”的强化学习框架(RL)。最大熵RL优化学习策略以最大化预期回报和预期熵,或者正在处理的数据中的随机性度量。在RL中,AI代理通过从策略中采样动作并接收奖励,不断寻找最佳的行动路径,也就是说,状态和行动的轨迹。最大熵RL激励政策更广泛地探索;一个参数 —— 比如说,温度 —— 确定熵对奖励的相对重要性,从而确定其随机性。
但这并不全是积极和有效的,至少不是一开始。因为熵和奖励之间的权衡直接受到奖励函数的规模的影响,而奖励函数的规模又影响学习速率,所以通常必须针对每个环境调整缩放因子。研究人员的解决方案是自动化温度和奖励规模调整,部分是在两个阶段之间交替进行:数据收集阶段和优化阶段。
结果不言自明。在OpenAI的健身房(一个用于训练和测试AI代理的开源模拟环境)进行的实验中,作者的模型在四个连续运动任务(HalfCheetah、Ant、Walker和Minitaur)中实现了“几乎相同”或比基线更好的性能。
在第二次真实世界的测试中,研究人员将他们的模型应用于四足Minitaur,这是一种带八个执行器的机器人,一个测量马达角度的马达编码器,以及一个测量方向和角速度的惯性测量单元(IMU)。
他们开发了一个管道,包括(1)计算机工作站,更新神经网络,从Minitaur下载数据,并上传最新策略;(2)在机器人上安装Nvidia Jetson TX2执行上述策略,收集数据,并通过以太网将数据上传到工作站。经过两个小时160,000步的训练后,通过奖励前进速度和惩罚“大角加速度”和俯仰角的算法,他们成功地训练Minitaur在平坦的地形上行走,越过木块等障碍物行走,以及爬上斜坡和台阶,而这些在训练时间内均未出现。
“据我们所知,这个实验是深度强化学习算法的第一例,这种算法可以在没有任何模拟或训练的情况下,直接在现实世界中学习欠驱动的四足运动。”研究人员写道。
相关文章
- Gartner发布2025年中国数据、分析和人工智能技术成熟度曲线
 - 数字经济“十四五”目标提前完成,人工智能打开产业全新空间
 - 创新,向6G:人工智能在无线接入网中的应用潜力
 - 英伟达人工智能芯片迎来太空首秀,AI初创公司Starcloud计划在太空建造数据中心
 - 深圳市人工智能产业协会走近凌雄科技:共探DaaS服务模式与AI融合新路径
 - 2025年杭州大学生创业学院人工智能专题班圆满结业
 - 以智能重构文创!联通数智荣获“兴智杯”全国人工智能创新应用大赛大奖
 - 120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
 - 伟创力发布全新人工智能基础设施平台,部署速度提升高达30%
 - 英伟达AI服务器8年来能耗飙升了100 倍,世界还能否满足人工智能不断增长的能源需求
 - 全球最大的L4无人货运车辆集采结果公示,中国邮政以人工智能重塑全球邮政发展新范式
 - 微软人工智能部门宣布推出首款自研图像生成器
 - 2026广州国际数智装备与人工智能展览会新闻发布会在穗成功举办
 - 2026广州国际数智装备与人工智能展览会新闻发布会在穗成功举办 聚力打造粤港澳大湾区数智产业盛会
 - 软银豪掷54亿美元投资人工智能机器人
 - 特赞科技携“创意可计算性:设计人工智能”展区亮相2025 世界设计之都大会
 









