OpenAI和DeepMind AI系统在Pong和Enduro实现了“超人”的表现
2018-11-22 09:50:56AI云资讯1201
通过观看人类来玩游戏的机器学习可能听起来像科幻小说的情节,但这正是OpenAI的研究人员以及谷歌子公司DeepMind声称已经完成了。 OpenAI这是一个由Elon Musk,Reid Hoffman和Peter Thiel支持的非营利性,总部位于旧金山的人工智能研究公司。
该研究已提交给神经信息处理系统(NIPS 2018),该系统计划于12月的第一周在加拿大蒙特利尔举行。
“为了通过强化学习解决复杂的现实问题,我们不能依赖手动指定的奖励功能,”该团队写道。“相反,我们可以让人类直接向代理人传达目标。”
这是一种在先前的研究中被称为“逆强化学习”的技术,它对于涉及定义不明确的目标的任务有希望,这些目标往往会绊倒人工智能(AI)系统。正如该论文的作者所指出的那样,强化学习 - 使用奖励(或惩罚)系统来驱动AI代理人实现特定目标 - 如果所讨论的目标缺乏反馈机制,则没有多大用处。
由研究人员的AI模型创建的游戏代理不仅模仿人类行为。如果他们有,他们就不会具有特别的可扩展性,因为他们需要一个人类专家来教他们如何执行特定任务,而且永远不会能够比所述专家实现“显着”更好的性能。
研究人员的系统结合了多种形式的反馈,包括来自专家演示的模仿学习和使用轨迹偏好的奖励模型。基本上,它没有假设直接可用的奖励,例如分数增加或游戏内奖金;相反,依靠循环中人类的反馈,它试图通过(1)模仿示范和(2)最大化推断的奖励函数来尽可能接近预期的行为。
该模型由两部分组成:深度Q-Learning网络,DeepMind在先前的研究中用于实现Atari 2600游戏中的超人表现,以及奖励模型,一种卷积神经网络,由注释器提供的标签训练 - 无论是人还是合成系统 - 在任务培训期间。
代理人随着时间的推移从示威和经验中学到了知识。人类专家一直阻止他们利用可能损害绩效的意外奖励来源,这种现象称为奖励黑客。
在测试中,研究人员在Arcade学习环境中设置AI模型的代理,这是一个开源框架,用于设计可以玩Atari 2600游戏的AI代理。研究人员写道,Atari游戏具有“强化学习中最多样化的环境”的优势,并提供“明确的”奖励功能。
经过5000万步骤和6,800个标签的完整时间表,受过研究人员系统训练的代理人在所有测试的游戏中都超越了模拟学习基线,除了私人眼睛(包括Beamrider,Breakout,Enduro,Pong,Q * bert和Seaquest)。研究人员发现,人类示威活动使Hero,Montezuma's Revenge和Private Eye受益匪浅,并且通常将实现相同性能水平所需的人工时间减半。
这项研究紧随人工智能系统 - 也是OpenAI科学家的工作 - 在Montezuma的复仇中可以成为最佳人类。(该模型的大多数性能改进来自随机网络蒸馏,它引入了奖励奖励,该奖励基于预测下一个状态下固定和随机初始化神经网络的输出。)当在超级马里奥上设置松散时,由系统训练的代理发现了11个关卡,找到了秘密房间,并击败了老板。当他们在Pong与一名人类球员一起打球时,他们试图延长比赛而不是赢球。
6月份OpenAI开发的机器人可能会击败Valve的Dota 2中的技术团队。

该研究已提交给神经信息处理系统(NIPS 2018),该系统计划于12月的第一周在加拿大蒙特利尔举行。
“为了通过强化学习解决复杂的现实问题,我们不能依赖手动指定的奖励功能,”该团队写道。“相反,我们可以让人类直接向代理人传达目标。”
这是一种在先前的研究中被称为“逆强化学习”的技术,它对于涉及定义不明确的目标的任务有希望,这些目标往往会绊倒人工智能(AI)系统。正如该论文的作者所指出的那样,强化学习 - 使用奖励(或惩罚)系统来驱动AI代理人实现特定目标 - 如果所讨论的目标缺乏反馈机制,则没有多大用处。
由研究人员的AI模型创建的游戏代理不仅模仿人类行为。如果他们有,他们就不会具有特别的可扩展性,因为他们需要一个人类专家来教他们如何执行特定任务,而且永远不会能够比所述专家实现“显着”更好的性能。
研究人员的系统结合了多种形式的反馈,包括来自专家演示的模仿学习和使用轨迹偏好的奖励模型。基本上,它没有假设直接可用的奖励,例如分数增加或游戏内奖金;相反,依靠循环中人类的反馈,它试图通过(1)模仿示范和(2)最大化推断的奖励函数来尽可能接近预期的行为。
该模型由两部分组成:深度Q-Learning网络,DeepMind在先前的研究中用于实现Atari 2600游戏中的超人表现,以及奖励模型,一种卷积神经网络,由注释器提供的标签训练 - 无论是人还是合成系统 - 在任务培训期间。
代理人随着时间的推移从示威和经验中学到了知识。人类专家一直阻止他们利用可能损害绩效的意外奖励来源,这种现象称为奖励黑客。
在测试中,研究人员在Arcade学习环境中设置AI模型的代理,这是一个开源框架,用于设计可以玩Atari 2600游戏的AI代理。研究人员写道,Atari游戏具有“强化学习中最多样化的环境”的优势,并提供“明确的”奖励功能。
经过5000万步骤和6,800个标签的完整时间表,受过研究人员系统训练的代理人在所有测试的游戏中都超越了模拟学习基线,除了私人眼睛(包括Beamrider,Breakout,Enduro,Pong,Q * bert和Seaquest)。研究人员发现,人类示威活动使Hero,Montezuma's Revenge和Private Eye受益匪浅,并且通常将实现相同性能水平所需的人工时间减半。
这项研究紧随人工智能系统 - 也是OpenAI科学家的工作 - 在Montezuma的复仇中可以成为最佳人类。(该模型的大多数性能改进来自随机网络蒸馏,它引入了奖励奖励,该奖励基于预测下一个状态下固定和随机初始化神经网络的输出。)当在超级马里奥上设置松散时,由系统训练的代理发现了11个关卡,找到了秘密房间,并击败了老板。当他们在Pong与一名人类球员一起打球时,他们试图延长比赛而不是赢球。
6月份OpenAI开发的机器人可能会击败Valve的Dota 2中的技术团队。
相关文章
- OpenAI发布GPT-5.4模型:具备原生计算机使用能力,能够在各类应用中执行任务
- OpenAI宣布获得亚马逊、英伟达和软银新融资1100亿美元
- OpenAI首次采用Cerebras的AI芯片运行Codex模型,成功实现了每秒1000次事务处理量
- OpenAI开始向ChatGPT的低成本用户推送广告
- OpenAI推出企业级AI智能体平台Frontier
- 苹果为旗下编程工具接入Anthropic和OpenAI智能体功能
- 英伟达与OpenAI的千亿美元超级合作陷入停滞
- OpenAI试水ChatGPT广告业务,每千次曝光量收费60美元
- OpenAI宣布首款消费级AI设备预计2026年下半年上市
- OpenAI数据中心将自行承担能源成本并限制用水量
- OpenAI首席财务官表示2026年的工作重心是实际应用
- OpenAI将推出搭载三星2纳米Exynos芯片的无线耳机,自研Titan专用芯片预计年底问世
- OpenAI安全研究主管离职 跳槽至竞争对手Anthropic
- OpenAI狂揽软银2800亿融资,谷歌/微美全息领衔AI军备竞赛重塑大模型格局
- OpenAI推出ChatGPT Health,鼓励用户关联个人医疗记录
- OpenAI在进行测试ChatGPT广告,暂时不会在聊天中出现
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









