Facebook AI的其他游戏算法可以改善自动驾驶汽车的性能
2020-03-18 17:51:20爱云资讯1091
Facebook AI研究人员的一个团队最近开发了一种算法,即“其他游戏(OP)”,该算法构建的策略可以使未经其他代理商训练的代理商获得高回报(零镜头协调的一种形式)。如果要求不高,这项工作将大大提高自动驾驶汽车的性能,自动驾驶汽车利用零击协调在道路上的障碍物和驾驶员周围导航。
研究人员研究了马尔可夫游戏,即仅依赖于以一种或另一种方式总结游戏历史的变量的游戏。(例如,变量可以是重复游戏中的当前游戏,也可以是近期游戏序列的任何解释。)游戏是部分可观察的,并且其玩家(由AI驱动的特工)共享联合奖励他们采取的行动和游戏状态。因此,目标是使期望收益最大化。
在实验中,该团队将OP(它使用问题描述来协调代理人而不是动作标签)应用于一种杠杆游戏,其中要求代理人从10个杠杆中选择一个来与未知的陌生人进行协调。他们说,在训练阶段和测试时间,OP代理与其他OP代理配对时都执行零击协调。相比之下,互相竞争以发现策略的自我扮演代理人在训练阶段获得了更高的回报,但未能与其他独立训练的自我扮演代理人进行协调。
接下来,研究人员将OP应用于合作式纸牌游戏Hanabi。在哈纳比(Hanabi),从总共有五张牌的一手牌中发给玩家。每回合,他们必须(1)在另一位玩家的手上露出纸牌的花色或号码,(2)丢弃纸牌,或(3)在尚未玩过的花色中打出为“ 1”的纸牌或下一顺序号的西装是已被播放。我们的目标是通过每套打出的最高张牌的价值来获得最高分-这项任务比听起来要更具挑战性。公开有关卡的信息消耗了八个可用信息令牌之一,只能通过丢弃或成功打出“ 5”的任何西装来补充。同时,打牌失败会消耗三种可用之一融合令牌。
根据研究人员的说法,OP改善了交叉游戏,从而消除了自游戏中出现的“不人道”惯例,这对于人类来说通常是很难(或不可能)理解的。(例如,在没有OP的情况下,自打特工可能会提示某种颜色,以表示它丢弃了一张牌,而其伙伴则将此解释为在玩另一张牌。)
在一项最终实验中,研究人员将OP协助的特工与哈纳比的人类玩家配对,他们全部都是从棋盘游戏俱乐部招募的,而其中20人都不是专家玩家。他们说,这些特工大大超过了最先进的自我扮演特工,在20种不同种子的比较中赢得15种,并有2例并列。该研究的共同作者写道:“这些结果并不表明,OP将在AI代理商需要与人类合作的每个零镜头协调中起作用。”“但是,他们令人鼓舞,并建议OP是解决人与AI协调这一重要问题的富有成果的研究方向。”
研究人员保持谨慎,不要声称OP是解决所有零击协调问题的灵丹妙药。但是,他们说,这对那些有兴趣将深度强化学习从两人,零和的环境转移到涉及协调与合作的环境的人来说,是一个令人兴奋的新研究方向。
他们说:“我们已经证明,自我发挥的简单扩展……可以构建能够更好地与从未见过的合作伙伴进行零镜头协调的特工。”
相关文章
- 抖音及TikTok蝉联7月全球移动应用下载榜冠军 Facebook排名第二
- 金融机构看好元宇宙概念,Facebook/微美全息蓄力AR/VR数字社交产业化生态
- Facebook人工智能研究部门推出聊天机器人BlenderBot2.0
- Facebook将开发帽子头戴设备,微美全息强化AR相关产业链布局受关注
- Facebook AI团队让机器人行走适应各种环境和路面
- Facebook/微美全息积极拥抱AR风口,宏大的未来一触即发!
- Facebook新专利提高AR眼镜体验,微美全息AR视觉扩内需互联产业生态
- Facebook消费者报告:AR购物是未来增长点,微美全息AI+AR聚焦5G消费市场
- VR、AR行业奇点将至,Facebook/微美全息/苹果等内容+生态跨越式发展
- 苹果/Facebook加速研发AR装置聚焦消费市场,微美全息AI+AR构筑5G全息云生态
- Facebook新AI模型实现图片监测,微美全息光场视觉AI模块化拼接算法优秀
- Facebook扩大团队推进AR/AR战略激进,微美全息扩大全息矩阵产品发展5G全息生态
- IDC公布中国深度学习市场综合份额:百度超越Facebook位列第二
- Facebook使用AI对内容进行分类 以便更快地进行审查
- Facebook正在研发AR眼镜 专注于音频清晰度
- Facebook推AI系统加快核磁共振(MRI)成像4倍