复杂应用中运用人工智能核心 强化学习
2020-07-27 10:28:34AI云资讯746
近期,有不少报道强化学习算法在 GO、Dota 2 和 Starcraft 2 等一系列游戏中打败了专业玩家的新闻。强化学习是一种机器学习类型,能够在电子游戏、机器人、自动驾驶等复杂应用中运用人工智能。在状态和动作空间较大、环境信息不完善并且短期动作的长期回报不确定的游戏中,这些程序可以找出最佳动作。
不只是游戏王者,强化学习作为机器学习的一个分支,在真实系统设计中,它能帮助您针对复杂系统(如机器人和自主系统)实现控制器和决策系统。借助深度强化学习,您可以实现深度神经网络,这类网络运用通过仿真模型动态生成的数据进行训练,从而学习复杂行为。您只需准备一个仿真模型来表示您正在与之交互并尝试控制的环境,而无需提供标注或者未标注的预定义训练数据集。
MATLAB 和 Simulink 支持设计和部署基于强化学习的控制器的整套工作流。您可以:
通过简单的控制系统、自主系统和机器人示例,初步了解强化学习
在常见强化学习算法间快速切换并加以评估和比较,只需对代码稍加改动即可实现
使用深度神经网络,根据图像、视频和传感器数据定义复杂强化学习策略
使用本地核心或云并行运行多个仿真,加速完成策略训练
将强化学习控制器部署到嵌入式设备
强化学习智能体(agent)
强化学习智能体由策略和算法构成,策略用于执行从输入状态到输出动作的映射,算法负责更新策略。常见算法包括深度 Q 网络、Actor-Critic 和深度确定性策略梯度。算法会更新策略,使之最大化环境提供的长期奖励信号。策略可通过深度神经网络、多项式或查找表进行表达。然后,您可以将内置智能体和自定义智能体作为 MATLAB 对象或 Simulink 模块加以实现。
在 MATLAB 和 Simulink 中进行环境建模
强化学习算法训练是一个动态过程,因为智能体需要与周边环境进行交互。对于机器人和自主系统等应用形式,在真实环境中使用实际硬件开展此类训练不仅代价高昂,还可能面临危险。正因如此,人们倾向于采用通过仿真生成数据的虚拟环境模型来开展强化学习。您可以在 MATLAB 和 Simulink 中构建环境模型,以此描述系统动态、智能体的行动对系统动态产生的影响,以及用于评估所采取行动优度的奖励。这些模型在本质上可以是连续的或者离散的,可以采用不同的保真度来表示系统。此外,您也可以通过并行仿真来加快训练。在某些情况下,您还可以重用现有的 MATLAB 和 Simulink 系统模型,只需稍加改动即可将其用于强化学习。
相关文章
- 智汇瓯江 智引未来:2025中国人工智能数字创新大会在温州成功举办
- 苹果人工智能服务器芯片Baltra或将用于执行人工智能推理任务
- 人工智能数据处理和质量测评中心全栈服务体系正式发布
- 中国开发区协会人工智能产业专业委员会在京成立
- 中国信通院政策与经济研究所李强治:我国人工智能治理迈入务实新阶段,场景与工具同步落地
- 中国信通院产业与规划研究所张桢:人工智能与城市全域数字化转型融合,正成为推动城市高质量发展的核心引擎
- 中国信通院产业与规划研究所徐志发:人工智能驱动数字消费深度变革,“十五五”时期将进入壮大发展的关键阶段
- 中国信通院云计算与大数据研究所栗蔚:智能算力重塑计算和网络架构,普惠化服务人工智能
- 中国信通院信息化与工业化融合研究所刘默:人工智能技术创新赋能制造业智能化迈入新阶段
- 中国信通院人工智能研究所魏凯:人工智能正从工具升级为伙伴,全面赋能高质量发展
- 中国心理科技园开园暨中国心理人工智能算力中心在京成立 心理产业迈入2.0时代:“心理AI产教融合生态”
- 蘑菇云荣膺教育强国论坛2025年度科技创新教育品牌 以创新产品赋能人工智能通识教育
- 英伟达在AI图形处理器上部署训练OpenAI的GPT-5.2,为人工智能产业提速
- 2025 全国人工智能应用场景创新挑战赛AI Agent全球专项赛线下半决赛新闻发布会在深圳召开
- 美图公司RoboNeo入选2025人工智能年度榜单
- 贵港移动公司共建人工智能联合实验室,推动产学研融合与产业数字化









