最强AI领衔麻将场,三缺一不再愁

2020-04-14 08:31:59爱云资讯

2019世界人工智能大会上,微软公布了其在人工智能研究领域的最新进展:由微软亚洲研究院开发的麻将AI系统Suphx(超级凤凰)在国际知名的专业麻将平台“天凤”上荣升十段,成为首个取得这一成绩的AI系统。

天凤是日本著名的麻将网络平台,采用日本麻将规则,分为4人麻与3人麻,并拥有段位、Rating等评价制度。依照级数、段位高低,玩家可使用的桌也有所差异。至于十段是什么概念?目前天凤平台上约有 33万名玩家,全平台达到四人麻将天凤位的麻将高手仅有13位,其中到达十段者仅180人 。也就是说,10段代表着全体玩家最顶端的0.0054%,毫无疑问拥有人类顶尖选手层级的麻将技术。

当Suphx荣升天凤十段突破了高端水准达顶级人类玩家水平,是否意味着AI已经突破了研究的边界,能够解决更复杂的现实挑战?未来Suphx能否代替陪伴我们的人类游戏,成为虚拟世界里的AI?在AI麻将的世界里还会有三缺一的事情发生吗?

时隔数月,微软亚洲研究院正式发表麻将AI「Microsoft Suphx」的研究报告,这位AI的真面目终于揭晓。

Suphx 简史

3年前,AlphaGo大败韩国棋王李世石,是AI在游戏上超越人类的一个重要里程碑,后又以近乎完美姿态打败柯洁,成为轰动整个世界的新闻,象征了AI在信息完全公开游戏的制霸地位。

自此时开始,各个企业、研究人员开始着眼于讯息不完全公开的游戏内容,好比说,DeepMind就放眼《星海争霸》、OpenAI也聚焦《Dota 2》等电竞游戏。然而,微软却将目光对准另一款同样源自中国,有着上千年历史的古老游戏——麻将。

信息完全公开的游戏,意味着面对同一场游戏,你看到的跟AI看到的完全一样,关键就在于如何利用目前游戏场已有的情报去作出判断,让AI能基于深度学习技术来学习并形成自己的“逻辑思想”。而对于信息不完全公开的游戏,人类往往依靠经验、直觉判读,甚至有时得观察对手的表情、语气,好判断究竟是否是虚张声势,而这些人类常用的判断方法,都相当难以化为AI可使用的数据。通俗的说,决定AI水平的高低或者有效性,主要取决于我们所提供的数据样本量。

2017年时,由卡内基梅隆大学开发的AI Libratus,曾在20天击败4位德州扑克高手,从人类手中赢得价值177万美元的筹码,标志了AI攻占不完全讯息(信息不完整)赛局领域的第一步。

但相对于德州扑克,麻将的不确定因素要更高。根据微软公布的资料,德州扑克的隐藏情报量约为10的3次方,也就是1000种,而麻将的隐藏情报量却达到10的48次方,完全无法比拟。

也由于麻将的难度,目前一般人能触及的麻将AI性能大多非常弱,为了确保游戏乐趣,会选择让AI得知玩家的牌。Suphx却绝对没有利用这种不公平的手段,而是与一般玩家自相同起跑点开始竞争。

为了让 Suphx 高效地学习麻将的复杂状态和策略,微软亚洲研究院针对麻将的特点与难点尝试了一系列基于强化学习的新算法,希望通过技术层面的创新,让 Suphx 具备有效的状态表达机制和强大的策略学习能力,同时具有大局意识,能从游戏的全局角度做出策略性的判断,确保统计意义上总分的领先地位。

比如,为了应对巨大的状态空间,研究团队引入了全新的机制对探索过程的多样性进行动态调控,让 Suphx 可以比传统算法更加充分地试探牌局状态的不同可能。另一方面,一旦某一轮的底牌给定,其状态子空间会大幅缩小。所以研究团队让 Suphx 在推理阶段根据本轮的牌局来动态调整策略,对缩小了的状态子空间进行更有针对性的探索,从而更好地根据本轮牌局的演进做出自适应的决策。

其次,针对非完美信息博弈的挑战,Suphx 创新性地尝试了先知教练技术来提升强化学习的效果。其基本思想是在自我博弈的训练阶段利用不可见的一些隐藏信息来引导 AI 模型的训练方向,使其学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼 AI 模型更加深入地理解可见信息,从中找到有效的决策依据。

另外,对于麻将复杂的牌面表达和计分机制,研究团队还利用全盘预测技术搭建起每轮比赛和 8 轮过后的终盘结果之间的桥梁。这个预测器通过精巧的设计,可以理解每轮比赛对终盘的不同贡献,从而将终盘的奖励信号合理地分配回每一轮比赛之中,以便对自我博弈的过程进行更加直接而有效的指导,并使得 Suphx 可以学会一些具有大局观的高级技巧。

得益于以上新技术和其他方面的创新,Suphx 在与人类玩家的对局中学得非常快。Suphx于2019年3月加入天凤,并在3个月内与人类玩家、其他AI对战5000余局后,6月以特上桌第一名的成绩成功晋升10段,这是目前AI专属账号所能达到的最高等级,同时 Suphx的胜率也比其余AI,甚至人类玩家更胜一筹 。

在这 5000 余场对局中,Suphx的 稳定段位超过了 8.7。这样的稳定段位是一个极高的数字。据统计,天凤平台的所有顶级人类选手在取得十段后,在“特上房”共参加过近万场比赛,整体稳定段位为 7.4。与所有取得过天凤十段的顶级人类玩家相比,Suphx 在特上房的稳定水平要领先约 1.3 个段位。此前,天凤平台还活跃着另外两个麻将 AI 系统,由东京大学在 2015 年开发的“爆打”和 Dwango 公司于 2018 年开发的基于深度学习模型的“NAGA25”,二者的稳定段位均在 6.5 左右。

未来Suphx将不止是麻将AI

麻将这类不完美信息游戏,与围棋、象棋等完美信息游戏相比,对人工智能来说具有更大的挑战性,因此为开发新的人工智能算法提供了理想的环境。

我们生活的世界是由许许多多的随机事件构成的,而且在很多情况下,无法知晓的信息也许远多于我们能够掌握的信息,而我们仍然要在这样信息不完全的条件下做出大大小小的决策。

麻将游戏中复杂的推理策略和带有随机性的博弈过程,比完美信息游戏更加贴近人类复杂的真实生活。AI 在不完美信息游戏中的突破,将有助于协助人类应对更多高度复杂的现实问题,尤其是在智能交通、金融投资等容易受到随机突发状况影响的场景中。

在4月9日的微软亚洲研究院Suphx研发团队的线上直播里,除了详细介绍Suphx的技术细节外,研究员称,团队正在金融行业和物流行业做一些尝试,让Suphx技术落地实际应用场景。

在金融领域里,倘如能提前知道明天股票行情,对于今天的投资则有利无害,这在某种程度上达成了完美信息。例如,今天A股已经收盘了,那么我们就知道了今天所有的股票信息,当我们再回头看昨天,假设昨天做决策的时候就知道了今天股票的信息,那对股票操作来说就是完美信息。研究员认为,在这种情况下可以利用完美信息,帮助我们把模型训练得更好。实际应用的时候就像麻将的博弈过程一样,通过完美信息,我们可以得到一个非常强大的老师——Teacher model,这样学生模型student model也会学的很好。

麻将不再有三缺一的烦恼

就麻将本身而言,Suphx 可以说是“另辟蹊径”,风格自成一派,创造了许多新的策略和打法,许多观看 Suphx 比赛的玩家都表示在观战过程中受到了启发,甚至有麻将爱好者将 Suphx 称作“麻将教科书”、“Suphx 老师”,通过学习 Suphx 的打法,帮助他们进一步提升和丰富自己的麻将技巧。

可以预见,随着微软Suphx麻将AI技术的突破,不久的将来麻将爱好者们将不用再为三缺一而烦恼。不仅是三缺一不用再烦恼,在人工智能的世界里,一缺三都不是事,只要你想大麻将,AI都将24小时随时在线为你守候。如果再打开摄像头,让AI捕捉与解读下我们的情绪,AI还可以很友善的出点“错”让我们赢一把开心一下。

Suphx的未来将不止是一个麻将AI,我们期待的游戏AI在不远的将来也会广泛走进我们的生活,在虚拟的世界里,AI最终会取代人类端,成为陪伴我们的游戏玩家。或许不久的将来,我们面对的将是一个人机混合、虚实混合的人工智能世界。

微软Suphx麻将AI技术的突破,让我们看到了深度学习技术在随机性领域的突破,或许有一天,当AI也具备了我们人类一样在不确定性中寻找与判断最优方案的可能,如果有一天机器人的硬件也能达到我们真人般的类人水平,这个高度类人的机器人融合了高度智慧的AI,我们人类与机器人的恋爱情感生活时代就被真正开启。未来到底是人类主导世界,还是AI主导世界,这恐怕只有以后的历史才能知道。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023