华为开发者大会HDC.Cloud带你探索强化学习三大挑战及落地实践
2020-03-13 10:15:10AI云资讯1376
2015-2017年间,AlphaGo系列事件宣告在围棋领域AI算法战胜人类世界冠军,这主要得益于其背后的核心技术-深度强化学习技术。之后研究者开始转向更加复杂的对战博弈场景,典型例子如Deepmind星际下AlphaStar,和OpenAI dota 下的OpenAi Five,并且均表现出接近甚至超越人类专业玩家的水准,引起了广泛反响和关注。研究者通过在能充分反应真实世界中抽象问题的博弈游戏场景下展开研究,极大地推动了深度强化学习技术的发展,及缩短强化学习技术在现实物理业务场景中落地应用的进程。


3月13日下午14:00-17:20举行的华为开发者大会2020(Cloud)第三期华为DevRun Live开发者沙龙中,华为诺亚方舟实验室决策推理实验室主任郝建业将分享《强化学习的落地实践》,围绕强化学习的发展历史,介绍强化学习背景,强化学习的最新研究进展,以及强化学习在业界的落地实践,并介绍该领域面临的挑战性问题和未来发展方向。
强化学习是区别于监督学习和无监督之间的第三类学习范式,可以理解为一种半监督学习。区别于深度学习,强化学习解决时序最优决策问题,目标是最大化连续多次决策的累计收益。而且强化学习没有正确的标签,只有从环境中获得反馈信号,而且通常是高度稀疏和延迟的,这也给强化学习带来了额外的挑战。


近5年,深度强化学习技术得到了飞速的发展,但仍然存在很多挑战问题亟待解决:
最关键的一个挑战在于现有强化学习技术样本利用率低,并且严重依赖大量计算资源。比如AlphaStar训练需要花费9600个TPU(花费约26 million),AlphaStar训练所玩游戏时间相当于人类玩家玩6万年。我们希望强化学习算法可以像人一样,具备能够复用旧任务的学习经验,来加速新任务下的学习效率的能力。这里我们提出一种大规模动态多智能体课程学习框架,并提出三种课程迁移的范式,来支持强化学习在大规模多智体场景下策略学习的高效性。
第二个挑战问题在于如何获取准确的监督信号。强化学习需要根据从环境中获取的反馈,定义合适的监督信号,这对强化学习算法的性能起到至关重要的作用。我们希望能有自动或半监督的方式来学习或修正监督信号。这里我们从基于邻域认知一致性的多智能体强化学习架构和多智能体动作语义两个角度,来实现监督信号的自动提取和修正,从而提升智能体间协作策略的学习。同时我们围绕网络大脑业务,从WiFi协同优化、4G场景下基站协同优化两个业务实例,介绍了多智能体强化学习在网络大脑业务下的应用价值,不但系统整体性能得到显著提升,优化速度也相比传统启发式算法也提速10倍以上。
第三个挑战在于如何通过学习自动生成多样化的行为。以自动驾驶为例,在复杂交互博弈场景下,缺乏对社会车辆、行人等多样化行为精准建模,是制约自动驾驶向L4\L5演进的关键技术瓶颈。这里我们提出演化强化学习架构,可支持多样化行为的自动生成。同时主要从复杂路口场景多车交互、窄道会车、交通流换道三个自动驾驶业务场景,介绍了我们的强化学习解决方案。基于支持多样化行为生成的仿真器下生成的强化学习控制策略,在实际驾驶场景下验证表现出很好的自适应决策和博弈交互能力,能够更自然、更高效的完成交互博弈场景通行任务。
除此之外,强化学习的落地场景还包括华为商城的推荐场景、华为供应链优化场景、数据中心优化等。随着强化学习技术的日益成熟,更多的业务场景下强化学习可以发挥其巨大的作用,等待着我们共同去挖掘和探索。
想要了解更多强化学习落地实践和前沿进展?更多精彩干货请收看3月13日的DevRun Live直播!

DevRun Live是华为开发者大会2020(Cloud)旗下的线上开发者沙龙活动,以直播的形式分享前沿科技和应用实践,开发者可以了解技术趋势、学习最新实践应用、获取最新开发工具。

相关文章
- 用AI探索世界,华为发布全新花瓣地图Agent
- 一起鸿蒙,共创生态繁荣 华为擎云公布鸿蒙商用生态最新成果
- AI辅助研发与开放能力全链路升级 华为携手开发者共写鸿蒙新故事
- 卡塔尔旅游局到访华为 双方签署合作谅解备忘录
- 华为HDC2026:全新花瓣地图Agent 正式发布,尝鲜版现已开放体验
- 软通动力All in AI,携手华为及行业伙伴共建产业新生态
- 华为云Stack携手灵雀云发布企业级AI云智一体化联合解决方案
- 华为携AI赋能教育创新实践成果 亮相2026世界数字教育大会
- 2026华为云全球销售伙伴峰会:发布AI场景化解决方案,携手伙伴共赢AI时代
- 华为开发者大会2026来了!拓维信息携开鸿智谷精彩亮相
- 华为云正式启动首届具身智能大赛,汇聚力量攻克机器人应用技术瓶颈
- 华为云郭婷:破解企业的“AI焦虑”,关键在于选对场景
- 华为擎云将亮相HDC 2026,发布鸿蒙商用解决方案2.0整体规划
- 百城读书会,华为阅读在治一种现代人的“阅读孤独症”
- 明源云亮相2026华为云创想者大会,发布最新不动产AI实战成果
- 2026华为云创想者大会|华为云数据库全系AI升级,拥抱Agentic新时代
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代









