不需要人类知识,AI 也能以更少步数复原任意 3 阶魔方
2018-06-20 09:34:04爱云资讯688
但是事实上对于算法来说,要解出魔术方块的谜题和下棋是完全不同种类的任务。
过去在棋类游戏中展现出超人类表现的算法,都是属于传统的「强化学习」(RL)系统,这类型 AI 在确定某些特定的一步是实现整体目标的积极步骤时,便会获得奖励,进而使系统产生追求最大利益的习惯性行为,然而当 AI 无法确定这一步是否有益时,强化学习自然就无法发挥作用。
如果还是无法理解,试着这么想吧:在进行棋类游戏时,系统可以轻易去判定一个动作究竟是属于「好棋」或「坏棋」,但是在转动魔术方块时,你能够说出有任何特定的一步,是改善整体难题的关键吗?
从外观上来看,魔术方块是个很单纯的益智玩具,然而因为 3D 立体的特性,这让一般常见的 3 阶魔术方块就已有着惊人的近 4.33×1019 组合,而在其中,只有六面都是相同颜色的状态才能成为「正确解答」。
过去人们已经研究出许多不同算法和策略来解决这项难题,但 AI 研究人员真正的目标还是希望能像 AlphaGo Zero 那样,让 AI 在没有任何历史知识的情况下,学会自行应对随机的魔术方块难题。
而近期加利福尼亚大学 Stephen McAleer 和团队透过一种被称为「自学叠代」(autodidactic iteration)的 AI 技术打造出「DeepCube」系统,成功让 AI 在面对任何乱序的 3 阶魔术方块时都可以成功找出正确解答。
根据团队解释,自学叠代是一种全新的强化学习算法,与过去棋类游戏算法的处理方式不同,它采取了「反着看」的内部奖励判断机制:当 AI 提出一个动作建议时,算法便会跳至完成的图形开始往前推导,直到到达提出的动作建议,藉以判断每一步动作的强度。
虽然听来相当的繁杂,但这让系统能够更熟悉每一步动作,并得以评估出整体强度,一但获得足够数量的数据,系统便能以传统的树状搜索方式去找出如何移动最好的方法。
▲ DeepCube 自行找出的一种策略 aba-1,许多玩家也经常使用。(Source:arXiv via Stephen McAleer)
团队在研究中发现,DeepCube 系统在训练中自己找出了许多与人类玩家相同的策略,并在经过 44 个小时的自学训练后,已经能够在没有任何人为干预下,在平均 30 步以内复原任何随机乱序魔术方块──这些「最佳解答」不是和人类最佳表现一样好,就是比这些表现更好。
McAleer 和团队打算未来将在更大、更难解决的 16 阶魔术方块上进行测试,这项全新的系统将有助于 AI 应用更全面化,像是生物物理学上重要的蛋白质摺叠(Protein Folding)问题或也有望得以解决。
相关文章
- 亿道数码携骁龙AI PC矩阵亮相高通科技日,定义移动办公轻时代
- 直击WAIC 2025 | 浩鲸科技联合蚂蚁数科发起“金融智能体应用联创联盟”
- 多模态AI融入日常交互 用三星Galaxy手机搭建效率工作流
- 引领智能运维!全新FortiAIOps 3.0重新定义IT运营
- 得瑞领新闪耀2025全球闪存峰会:D8000系列斩获创新大奖,强势赋能AI时代数据基石
- WAIC 2025 | SHIXP将与PPIO共建分布式智算枢纽平台
- 2025 WAIC落幕,深谋科技以技术与落地破局具身智能赛道
- AI赋能基层“智治” 湖北移动打造数字乡村治理新样本
- AI重磅奖项揭晓!用友大易荣膺人力资源服务业AI25强及思旗奖
- 中国最大黑客松AdventureX 2025杭州启幕,涂鸦赋能青年开发者引爆Physical AI变革
- WAIC2025:澳鹏发布新一代技术平台矩阵 助力大模型垂直应用落地
- 共建AI PC企业服务生态,京东政企业务携手高通打造骁龙AI PC生态科技日
- 2025 WAIC“智算技术创新与行业实践” 论坛圆满落幕 共绘智算生态新蓝图
- 四维图新亮相2025世界智能汽车大会:以AI新基建与数据闭环赋能智驾新范式
- 星辰聚智·才启未来:2025世界人工智能大会中国电信发布系列前沿能力及AI产品
- 神州云动CRM亮相2025浪潮AI向新 数字企业创新大会