OpenAI和DeepMind AI系统在Pong和Enduro实现了“超人”的表现
2018-11-22 09:50:56爱云资讯1023
通过观看人类来玩游戏的机器学习可能听起来像科幻小说的情节,但这正是OpenAI的研究人员以及谷歌子公司DeepMind声称已经完成了。 OpenAI这是一个由Elon Musk,Reid Hoffman和Peter Thiel支持的非营利性,总部位于旧金山的人工智能研究公司。

在预印本服务器Arxiv.org上发表的一篇论文(“奖励从Atari的人类偏好和演示中学习”)中,他们描述了一种人工智能系统,该系统结合了两种学习人类反馈的方法:专家演示和轨迹偏好。他们的深度神经网络 - 与其他神经网络一样,由大脑神经元模拟的数学函数组成 - 在9个Atari游戏测试中的两个(Pong和Enduro)中获得了超人的表现,并在七个中击败了基线模型。
该研究已提交给神经信息处理系统(NIPS 2018),该系统计划于12月的第一周在加拿大蒙特利尔举行。
“为了通过强化学习解决复杂的现实问题,我们不能依赖手动指定的奖励功能,”该团队写道。“相反,我们可以让人类直接向代理人传达目标。”
这是一种在先前的研究中被称为“逆强化学习”的技术,它对于涉及定义不明确的目标的任务有希望,这些目标往往会绊倒人工智能(AI)系统。正如该论文的作者所指出的那样,强化学习 - 使用奖励(或惩罚)系统来驱动AI代理人实现特定目标 - 如果所讨论的目标缺乏反馈机制,则没有多大用处。
由研究人员的AI模型创建的游戏代理不仅模仿人类行为。如果他们有,他们就不会具有特别的可扩展性,因为他们需要一个人类专家来教他们如何执行特定任务,而且永远不会能够比所述专家实现“显着”更好的性能。
研究人员的系统结合了多种形式的反馈,包括来自专家演示的模仿学习和使用轨迹偏好的奖励模型。基本上,它没有假设直接可用的奖励,例如分数增加或游戏内奖金;相反,依靠循环中人类的反馈,它试图通过(1)模仿示范和(2)最大化推断的奖励函数来尽可能接近预期的行为。
该模型由两部分组成:深度Q-Learning网络,DeepMind在先前的研究中用于实现Atari 2600游戏中的超人表现,以及奖励模型,一种卷积神经网络,由注释器提供的标签训练 - 无论是人还是合成系统 - 在任务培训期间。
代理人随着时间的推移从示威和经验中学到了知识。人类专家一直阻止他们利用可能损害绩效的意外奖励来源,这种现象称为奖励黑客。
在测试中,研究人员在Arcade学习环境中设置AI模型的代理,这是一个开源框架,用于设计可以玩Atari 2600游戏的AI代理。研究人员写道,Atari游戏具有“强化学习中最多样化的环境”的优势,并提供“明确的”奖励功能。
经过5000万步骤和6,800个标签的完整时间表,受过研究人员系统训练的代理人在所有测试的游戏中都超越了模拟学习基线,除了私人眼睛(包括Beamrider,Breakout,Enduro,Pong,Q * bert和Seaquest)。研究人员发现,人类示威活动使Hero,Montezuma's Revenge和Private Eye受益匪浅,并且通常将实现相同性能水平所需的人工时间减半。
这项研究紧随人工智能系统 - 也是OpenAI科学家的工作 - 在Montezuma的复仇中可以成为最佳人类。(该模型的大多数性能改进来自随机网络蒸馏,它引入了奖励奖励,该奖励基于预测下一个状态下固定和随机初始化神经网络的输出。)当在超级马里奥上设置松散时,由系统训练的代理发现了11个关卡,找到了秘密房间,并击败了老板。当他们在Pong与一名人类球员一起打球时,他们试图延长比赛而不是赢球。
6月份OpenAI开发的机器人可能会击败Valve的Dota 2中的技术团队。

该研究已提交给神经信息处理系统(NIPS 2018),该系统计划于12月的第一周在加拿大蒙特利尔举行。
“为了通过强化学习解决复杂的现实问题,我们不能依赖手动指定的奖励功能,”该团队写道。“相反,我们可以让人类直接向代理人传达目标。”
这是一种在先前的研究中被称为“逆强化学习”的技术,它对于涉及定义不明确的目标的任务有希望,这些目标往往会绊倒人工智能(AI)系统。正如该论文的作者所指出的那样,强化学习 - 使用奖励(或惩罚)系统来驱动AI代理人实现特定目标 - 如果所讨论的目标缺乏反馈机制,则没有多大用处。
由研究人员的AI模型创建的游戏代理不仅模仿人类行为。如果他们有,他们就不会具有特别的可扩展性,因为他们需要一个人类专家来教他们如何执行特定任务,而且永远不会能够比所述专家实现“显着”更好的性能。
研究人员的系统结合了多种形式的反馈,包括来自专家演示的模仿学习和使用轨迹偏好的奖励模型。基本上,它没有假设直接可用的奖励,例如分数增加或游戏内奖金;相反,依靠循环中人类的反馈,它试图通过(1)模仿示范和(2)最大化推断的奖励函数来尽可能接近预期的行为。
该模型由两部分组成:深度Q-Learning网络,DeepMind在先前的研究中用于实现Atari 2600游戏中的超人表现,以及奖励模型,一种卷积神经网络,由注释器提供的标签训练 - 无论是人还是合成系统 - 在任务培训期间。
代理人随着时间的推移从示威和经验中学到了知识。人类专家一直阻止他们利用可能损害绩效的意外奖励来源,这种现象称为奖励黑客。
在测试中,研究人员在Arcade学习环境中设置AI模型的代理,这是一个开源框架,用于设计可以玩Atari 2600游戏的AI代理。研究人员写道,Atari游戏具有“强化学习中最多样化的环境”的优势,并提供“明确的”奖励功能。
经过5000万步骤和6,800个标签的完整时间表,受过研究人员系统训练的代理人在所有测试的游戏中都超越了模拟学习基线,除了私人眼睛(包括Beamrider,Breakout,Enduro,Pong,Q * bert和Seaquest)。研究人员发现,人类示威活动使Hero,Montezuma's Revenge和Private Eye受益匪浅,并且通常将实现相同性能水平所需的人工时间减半。
这项研究紧随人工智能系统 - 也是OpenAI科学家的工作 - 在Montezuma的复仇中可以成为最佳人类。(该模型的大多数性能改进来自随机网络蒸馏,它引入了奖励奖励,该奖励基于预测下一个状态下固定和随机初始化神经网络的输出。)当在超级马里奥上设置松散时,由系统训练的代理发现了11个关卡,找到了秘密房间,并击败了老板。当他们在Pong与一名人类球员一起打球时,他们试图延长比赛而不是赢球。
6月份OpenAI开发的机器人可能会击败Valve的Dota 2中的技术团队。
相关文章
- OpenAI向付费版ChatGPT用户开放先进的代码生成模型GPT-4.1
- OpenAI放弃营利转型计划 保留非营利监管架构
- ChatGPT最近的更新深陷谄媚模式,OpenAI连夜进行回滚
- OpenAI拟从谷歌收购Chrome
- OpenAI推出新一代开源模型,微美全息多线攻关促AI开源应用落地
- OpenAI发布全新人工智能模型o3和o4-mini,首次实现图像思考
- OpenAI公布非营利委员会新的顾问人选
- OpenAI即将推出GPT-4.1版本
- 微软计划独立开发人工智能模型以减少对OpenAI的依赖
- OpenAI计划推出具备推理能力的开放权重大模型
- OpenAI宣布完成新一轮400亿美元的融资,由软银领投
- OpenAI推出GPT4.5研究预览版 情商更高、幻觉更少 Altman:下周再增数万GPU
- 涂鸦智能集成DeepSeek、豆包、OpenAI等全球先进AI大模型,发布亿元补贴助力AI硬件创新
- OpenAI前首席技术官米拉·穆拉蒂官宣创业, 成立思维机器实验室
- OpenAI董事会一致拒绝马斯克收购公司的提议
- OpenAI首席执行官奥尔特曼公布GPT-5计划 :产品矩阵大整合,免费无限使用