华为开发者大会HDC.Cloud带你探索强化学习三大挑战及落地实践
2020-03-13 10:15:10AI云资讯1339
2015-2017年间,AlphaGo系列事件宣告在围棋领域AI算法战胜人类世界冠军,这主要得益于其背后的核心技术-深度强化学习技术。之后研究者开始转向更加复杂的对战博弈场景,典型例子如Deepmind星际下AlphaStar,和OpenAI dota 下的OpenAi Five,并且均表现出接近甚至超越人类专业玩家的水准,引起了广泛反响和关注。研究者通过在能充分反应真实世界中抽象问题的博弈游戏场景下展开研究,极大地推动了深度强化学习技术的发展,及缩短强化学习技术在现实物理业务场景中落地应用的进程。


3月13日下午14:00-17:20举行的华为开发者大会2020(Cloud)第三期华为DevRun Live开发者沙龙中,华为诺亚方舟实验室决策推理实验室主任郝建业将分享《强化学习的落地实践》,围绕强化学习的发展历史,介绍强化学习背景,强化学习的最新研究进展,以及强化学习在业界的落地实践,并介绍该领域面临的挑战性问题和未来发展方向。
强化学习是区别于监督学习和无监督之间的第三类学习范式,可以理解为一种半监督学习。区别于深度学习,强化学习解决时序最优决策问题,目标是最大化连续多次决策的累计收益。而且强化学习没有正确的标签,只有从环境中获得反馈信号,而且通常是高度稀疏和延迟的,这也给强化学习带来了额外的挑战。


近5年,深度强化学习技术得到了飞速的发展,但仍然存在很多挑战问题亟待解决:
最关键的一个挑战在于现有强化学习技术样本利用率低,并且严重依赖大量计算资源。比如AlphaStar训练需要花费9600个TPU(花费约26 million),AlphaStar训练所玩游戏时间相当于人类玩家玩6万年。我们希望强化学习算法可以像人一样,具备能够复用旧任务的学习经验,来加速新任务下的学习效率的能力。这里我们提出一种大规模动态多智能体课程学习框架,并提出三种课程迁移的范式,来支持强化学习在大规模多智体场景下策略学习的高效性。
第二个挑战问题在于如何获取准确的监督信号。强化学习需要根据从环境中获取的反馈,定义合适的监督信号,这对强化学习算法的性能起到至关重要的作用。我们希望能有自动或半监督的方式来学习或修正监督信号。这里我们从基于邻域认知一致性的多智能体强化学习架构和多智能体动作语义两个角度,来实现监督信号的自动提取和修正,从而提升智能体间协作策略的学习。同时我们围绕网络大脑业务,从WiFi协同优化、4G场景下基站协同优化两个业务实例,介绍了多智能体强化学习在网络大脑业务下的应用价值,不但系统整体性能得到显著提升,优化速度也相比传统启发式算法也提速10倍以上。
第三个挑战在于如何通过学习自动生成多样化的行为。以自动驾驶为例,在复杂交互博弈场景下,缺乏对社会车辆、行人等多样化行为精准建模,是制约自动驾驶向L4\L5演进的关键技术瓶颈。这里我们提出演化强化学习架构,可支持多样化行为的自动生成。同时主要从复杂路口场景多车交互、窄道会车、交通流换道三个自动驾驶业务场景,介绍了我们的强化学习解决方案。基于支持多样化行为生成的仿真器下生成的强化学习控制策略,在实际驾驶场景下验证表现出很好的自适应决策和博弈交互能力,能够更自然、更高效的完成交互博弈场景通行任务。
除此之外,强化学习的落地场景还包括华为商城的推荐场景、华为供应链优化场景、数据中心优化等。随着强化学习技术的日益成熟,更多的业务场景下强化学习可以发挥其巨大的作用,等待着我们共同去挖掘和探索。
想要了解更多强化学习落地实践和前沿进展?更多精彩干货请收看3月13日的DevRun Live直播!

DevRun Live是华为开发者大会2020(Cloud)旗下的线上开发者沙龙活动,以直播的形式分享前沿科技和应用实践,开发者可以了解技术趋势、学习最新实践应用、获取最新开发工具。

相关文章
- 五菱与华为乾崑签署深化战略合作协议,华境S 5月8日正式上市
- 华境S亮相华为乾崑技术大会,将搭载ADS 5!
- 华为王超:华为智擎构筑新能源汽车“用能之核心、运动之要义、安全之基石”
- 华为余承东发布华为DriveONE中文品牌“华为智擎”,持续引领新能源汽车电动化升级
- 向海图强,华为混合云助力柳钢以AI+钢铁驶向深蓝新征程
- 华为Pura 90携手宇瞳光学,一颗长焦镜头的技术答卷
- 华为Pura X Max携手哔哩哔哩漫画:动态国漫在阔型大屏“活”起来
- 华为智慧屏 S7 Pro正式发布:搭载低反光护眼屏,全家观影更尽兴
- 华为正式发布HUAWEI MateBook 14 鸿蒙版,开启轻薄本智慧体验新篇章
- 华为阅读独家黑科技!华为Pura X Max首发AI动态漫画实现眼动撕漫效果
- 华为Pura双旗舰登场,首发HarmonyOS 6.1与伴随式AI,鸿蒙越用越爱用
- 华为Pura X Max搭载业界首个伴随式AI发布,开启智能新时代
- 城区NOA TOP3市占率超93%,华为乾崑拿下三个第一
- 华为Pura新机发布在即,快手旗下可灵AI鸿蒙版正式上架,解锁移动创作新体验
- 华为Pura X Max真机亮相小红书!鸿蒙版小红书创作、浏览体验全面焕新
- 鸿蒙版Tesla正式上线华为应用市场,手机秒变“第二把车钥匙”
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









