从AutoML到AutoNLP,深兰自研系统再发力夺冠NeurIPS 2019

2019-12-23 13:43:07爱云资讯

加拿大当地时间12月8日-14日,全球最受瞩目的人工智能和机器学习领域的顶级盛会之一,第33届神经信息处理系统大会(NeurIPS 2019)在温哥华召开。深兰科技DeepBlueAI团队分别在D²-City & BDD100K 目标检测挑战赛和AutoDL挑战赛(AutoNLP)中获得冠军,从技术层面助推了自动驾驶领域的发展和自然语言处理在多应用场景的落地。

NeurIPS每年都会吸引大量专家、学者和AI领域从业人员的参与,目的是促进神经信息处理系统在生物、技术、数学和理论方面的研究交流。据大会官方统计,今年参会总人数突破了13000人。

目标检测的竞赛几乎出现在所有人工智能相关的国际顶级会议上,本届NeurIPS也不例外。D²-City & BDD100K 目标检测挑战赛中的D²-City是一个大型的驾驶视频数据集,提供超过10000个以720p高清或1080p FHD格式录制的DashCam视频。大约1000个视频在所有道路物体的每一帧中都带有检测和跟踪注释,涵盖了共12类行车和道路相关的目标类别。与现有数据集相比,D²-City显示出更大的多样性,因为数据来自中国多个城市,具有不同的天气、道路和交通条件。挑战赛希望通过该数据集鼓励和帮助自动驾驶相关领域研究取得新进展。

任务针对目标检测提出了一种迁移学习挑战。根据美国收集的BDD(Berkeley Deep Drive)100K数据集的标注数据训练,要求参与者提供中国收集的D²-City数据集的目标检测结果,数据可能涵盖各种情况,甚至严重或罕见的情况(如昏暗的光线、雨雾和交通拥挤)。数据集受限、数据分布差异等使得竞赛难度变大。DeepBlueAI团队提取深层特征,利用级联式模型预测出图像中的目标,准确率(mAP)达到36.9。最终团队经过不断尝试和调整,获得该竞赛的冠军。

本年度,自然语言处理NLP(Natural Language Processing)在深度学习浪潮下取得了显著成就,也成为大会重要议题之一。NLP是人工智能的一个子领域,也是最为困难的问题之一。而AutoNLP则是近来比较前沿的领域,目标就是在没有人类干预的情况下,对自然语言处理任务进行训练和预测。其应用场景也较为丰富,比如对线上客服系统,AutoNLP可以根据用户提交咨询、客户投诉反馈的各类留言信息,做自动化分类训练,帮助业务快速准确地区分投诉问题。

竞赛组织方公布了5个离线公共数据集、5个线上公共数据集(用于盲测,选手无法获得数据集任何信息)。选手下载离线公共数据集,开发全自动的文本分类系统,实现接收原始未经预处理的文本训练数据、全自动地完成文本预处理、模型结构设计和参数调优等过程。随后将设计的自动文本分类系统上传至比赛平台上,通过5个线上公共数据集评估其AutoNLP方案的实时性能反馈,期间不会有任何人工干预,也据此得出预赛阶段的排名。

据DeepBlueAI团队介绍,冠军方案实现的AutoNLP框架,包括文本数据的自动清洗与序列化、自动特征工程、自动超参调优、自动模型融合以及自动模型选择等模块,同时针对性地分别处理中文和英文,从不同角度观察文本,最后综合所有信息进行分类,这里“综合”的过程就是集成学习。此外,团队在运行时间和显存上也采取了一些控制策略,防止系统超时和显存溢出。这是继深兰AutoML在KDD2019夺冠后,又一自研系统获得国际顶会的冠军。

2019年,深兰科技在多个国际顶级赛事上取得了不俗的成绩,包括KDD、IEEE ISI、CVPR、ICCV、SIGIR等,已经累计获得13项世界冠军,涉及领域涵盖目标跟踪、动作识别、自动驾驶、图像分类等,希望推进前沿技术从研究到实际应用的落地,为用户带来价值,为民生带来改变。此次NeurIPS 2019又得双冠,再次证明了深兰在基础研究方面的实力,为2019画上了圆满的句点。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023