华为开发者大会HDC.Cloud带你探索强化学习三大挑战及落地实践
2020-03-13 10:15:10AI云资讯1274
2015-2017年间,AlphaGo系列事件宣告在围棋领域AI算法战胜人类世界冠军,这主要得益于其背后的核心技术-深度强化学习技术。之后研究者开始转向更加复杂的对战博弈场景,典型例子如Deepmind星际下AlphaStar,和OpenAI dota 下的OpenAi Five,并且均表现出接近甚至超越人类专业玩家的水准,引起了广泛反响和关注。研究者通过在能充分反应真实世界中抽象问题的博弈游戏场景下展开研究,极大地推动了深度强化学习技术的发展,及缩短强化学习技术在现实物理业务场景中落地应用的进程。


3月13日下午14:00-17:20举行的华为开发者大会2020(Cloud)第三期华为DevRun Live开发者沙龙中,华为诺亚方舟实验室决策推理实验室主任郝建业将分享《强化学习的落地实践》,围绕强化学习的发展历史,介绍强化学习背景,强化学习的最新研究进展,以及强化学习在业界的落地实践,并介绍该领域面临的挑战性问题和未来发展方向。
强化学习是区别于监督学习和无监督之间的第三类学习范式,可以理解为一种半监督学习。区别于深度学习,强化学习解决时序最优决策问题,目标是最大化连续多次决策的累计收益。而且强化学习没有正确的标签,只有从环境中获得反馈信号,而且通常是高度稀疏和延迟的,这也给强化学习带来了额外的挑战。


近5年,深度强化学习技术得到了飞速的发展,但仍然存在很多挑战问题亟待解决:
最关键的一个挑战在于现有强化学习技术样本利用率低,并且严重依赖大量计算资源。比如AlphaStar训练需要花费9600个TPU(花费约26 million),AlphaStar训练所玩游戏时间相当于人类玩家玩6万年。我们希望强化学习算法可以像人一样,具备能够复用旧任务的学习经验,来加速新任务下的学习效率的能力。这里我们提出一种大规模动态多智能体课程学习框架,并提出三种课程迁移的范式,来支持强化学习在大规模多智体场景下策略学习的高效性。
第二个挑战问题在于如何获取准确的监督信号。强化学习需要根据从环境中获取的反馈,定义合适的监督信号,这对强化学习算法的性能起到至关重要的作用。我们希望能有自动或半监督的方式来学习或修正监督信号。这里我们从基于邻域认知一致性的多智能体强化学习架构和多智能体动作语义两个角度,来实现监督信号的自动提取和修正,从而提升智能体间协作策略的学习。同时我们围绕网络大脑业务,从WiFi协同优化、4G场景下基站协同优化两个业务实例,介绍了多智能体强化学习在网络大脑业务下的应用价值,不但系统整体性能得到显著提升,优化速度也相比传统启发式算法也提速10倍以上。
第三个挑战在于如何通过学习自动生成多样化的行为。以自动驾驶为例,在复杂交互博弈场景下,缺乏对社会车辆、行人等多样化行为精准建模,是制约自动驾驶向L4\L5演进的关键技术瓶颈。这里我们提出演化强化学习架构,可支持多样化行为的自动生成。同时主要从复杂路口场景多车交互、窄道会车、交通流换道三个自动驾驶业务场景,介绍了我们的强化学习解决方案。基于支持多样化行为生成的仿真器下生成的强化学习控制策略,在实际驾驶场景下验证表现出很好的自适应决策和博弈交互能力,能够更自然、更高效的完成交互博弈场景通行任务。
除此之外,强化学习的落地场景还包括华为商城的推荐场景、华为供应链优化场景、数据中心优化等。随着强化学习技术的日益成熟,更多的业务场景下强化学习可以发挥其巨大的作用,等待着我们共同去挖掘和探索。
想要了解更多强化学习落地实践和前沿进展?更多精彩干货请收看3月13日的DevRun Live直播!

DevRun Live是华为开发者大会2020(Cloud)旗下的线上开发者沙龙活动,以直播的形式分享前沿科技和应用实践,开发者可以了解技术趋势、学习最新实践应用、获取最新开发工具。

相关文章
- 安徽电信携手华为打造5G-A x AI大上行样板,助力合肥骆岗公园大型无人机灯光秀精彩呈现
- 华为乾崑智驾荣膺第六届汽车风云盛典年度创新案例
- 鸿运马上来|华为音乐新春活动上线,新年听新歌焕新声接好运
- 华为云完成智谱GLM-5适配,多款产品已接入可在线体验
- 2025中国高端新能源车市场:每3台车就有1台搭载华为DriveONE
- 华为与今日人才签署合作协议,深耕政务与城市数智化AI新生态
- 百万车主的选择 华为DriveONE稳居2025中国市场独立一级供应商发货量首位
- 钛动科技赋能华为全球化:从技术到情感的品牌跃迁
- QuestMobile2025年度价值榜单发布:华为应用市场斩获三大奖项
- 华为云黄瑾:做难而正确的事,用AI解行业难题
- 高并发业务如何兼顾稳定与弹性?华为云TaurusDB给出“存算分离”新解
- 华为云安全“铁三角”,筑牢企业数智化安全底座
- 智驾江湖格局已定!华为、Momenta“智驾双强”格局稳固!
- 华为云发布2026年全球销售伙伴政策,与合作伙伴共赢AI时代
- 华为视频服务启动试点,升级数字化服务新体验
- 昇腾云客户2663家,华为云稳居最大国产AI云服务提供商
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









