Facebook AI的其他游戏算法可以改善自动驾驶汽车的性能

2020-03-18 17:51:20爱云资讯

Facebook AI研究人员的一个团队最近开发了一种算法,即“其他游戏(OP)”,该算法构建的策略可以使未经其他代理商训练的代理商获得高回报(零镜头协调的一种形式)。如果要求不高,这项工作将大大提高自动驾驶汽车的性能,自动驾驶汽车利用零击协调在道路上的障碍物和驾驶员周围导航。

研究人员研究了马尔可夫游戏,即仅依赖于以一种或另一种方式总结游戏历史的变量的游戏。(例如,变量可以是重复游戏中的当前游戏,也可以是近期游戏序列的任何解释。)游戏是部分可观察的,并且其玩家(由AI驱动的特工)共享联合奖励他们采取的行动和游戏状态。因此,目标是使期望收益最大化。

在实验中,该团队将OP(它使用问题描述来协调代理人而不是动作标签)应用于一种杠杆游戏,其中要求代理人从10个杠杆中选择一个来与未知的陌生人进行协调。他们说,在训练阶段和测试时间,OP代理与其他OP代理配对时都执行零击协调。相比之下,互相竞争以发现策略的自我扮演代理人在训练阶段获得了更高的回报,但未能与其他独立训练的自我扮演代理人进行协调。

接下来,研究人员将OP应用于合作式纸牌游戏Hanabi。在哈纳比(Hanabi),从总共有五张牌的一手牌中发给玩家。每回合,他们必须(1)在另一位玩家的手上露出纸牌的花色或号码,(2)丢弃纸牌,或(3)在尚未玩过的花色中打出为“ 1”的纸牌或下一顺序号的西装是已被播放。我们的目标是通过每套打出的最高张牌的价值来获得最高分-这项任务比听起来要更具挑战性。公开有关卡的信息消耗了八个可用信息令牌之一,只能通过丢弃或成功打出“ 5”的任何西装来补充。同时,打牌失败会消耗三种可用之一融合令牌。

根据研究人员的说法,OP改善了交叉游戏,从而消除了自游戏中出现的“不人道”惯例,这对于人类来说通常是很难(或不可能)理解的。(例如,在没有OP的情况下,自打特工可能会提示某种颜色,以表示它丢弃了一张牌,而其伙伴则将此解释为在玩另一张牌。)

在一项最终实验中,研究人员将OP协助的特工与哈纳比的人类玩家配对,他们全部都是从棋盘游戏俱乐部招募的,而其中20人都不是专家玩家。他们说,这些特工大大超过了最先进的自我扮演特工,在20种不同种子的比较中赢得15种,并有2例并列。该研究的共同作者写道:“这些结果并不表明,OP将在AI代理商需要与人类合作的每个零镜头协调中起作用。”“但是,他们令人鼓舞,并建议OP是解决人与AI协调这一重要问题的富有成果的研究方向。”

研究人员保持谨慎,不要声称OP是解决所有零击协调问题的灵丹妙药。但是,他们说,这对那些有兴趣将深度强化学习从两人,零和的环境转移到涉及协调与合作的环境的人来说,是一个令人兴奋的新研究方向。

他们说:“我们已经证明,自我发挥的简单扩展……可以构建能够更好地与从未见过的合作伙伴进行零镜头协调的特工。”

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023