美媒：科学家用电子游戏来解锁新层次人工智能-爱云资讯

美媒称，对人工智能的预期非常现实也非常高，《福布斯》杂志所做的一项分析预测，人工智能带来的收入将从2018年的16.2亿美元猛增到2023年的312亿美元。这份报告还包含一项调查，显示84%的企业认为投资人工智能会带来竞争优势。

据美国科技探索网站11月5日报道，美国匹兹堡大学斯旺森工程学院工业工程学助理教授丹尼尔·江（音）说：“看到近年来取得了极大的成功和进展，真是令人兴奋。为了延续这种趋势，我们正在研究更复杂的算法，以学习最佳决策策略。”

江博士设计了在复杂和不确定环境下学习决策策略的算法。通过在模拟环境中测试算法，他们可以从错误中吸取教训，同时发现并强化取得成功的策略。为了完善这一过程，江博士和他所在领域的许多研究人员需要反映真实世界的模拟。

他说：“作为工业工程师，我们通常把运算重点放在解决问题上，例如运输、物流和供应链、能源系统和医疗保健是几个重要领域。所有这些问题都是利害攸关的运算，会在现实世界中产生后果。它们没有提供尝试实验性技术的最佳环境，尤其是在我们的许多算法可以被认为是对所有可能的行为反复进行‘尝试犯错’的聪明方法的时候。”

报道称，让高级人工智能呈现真实世界和难题的一种策略是利用历史数据。例如，算法可以查遍几十年来的数据，以发现哪些决策是有效的，而哪些决策导致的结果不那么理想。然而，研究人员发现，很难只用过去的数据来学习适应性行为的算法。

报道表示，电子游戏作为一种替代方式，提供了充满复杂决策过程的丰富测试环境，而没有让不成熟的人工智能全权负责的危险。与现实世界不同，它们提供了一种让算法从错误中吸取教训的安全方法。

江博士说：“电子游戏设计者开发游戏的目的不是为了测试模型或模拟。他们设计游戏的目的往往是双重的：创造模仿现实世界的环境，挑战参与者作出艰难决定。这些目标恰好也与我们的目标一致。此外，游戏的速度要快得多。在几个小时的时间中，我们可以评估出数以十万计的游戏决策结果。”

为了测试他的算法，江博士使用了一种名为“多人在线战术竞技”的电子游戏。像《英雄联盟》和《风暴英雄》这样的多人在线战术竞技游戏很受欢迎，玩家可以控制几个“英雄”角色中的一个，并试图摧毁对手的基地，同时保护自己的基地。

江博士说：“我们设计了算法评估41条信息，然后输出22种不同动作中的一种，包括移动、攻击和特殊动作。我们对比了不同的训练方法。最成功的玩家使用一种叫做‘蒙特卡罗树搜索’的方法来生成数据，然后输入神经网络。”

江博士解释说：“我们的研究还给出了一些理论结果，证明蒙特卡罗树搜索技术是一种有效的策略，可以训练代理人成功地实时做出艰难决定，即使是在不确定的世界中进行操作。”