成功挑战极端数据集 深兰科技自研AutoML夺冠KDD Cup 2019
2019-08-08 09:56:06爱云资讯534
近日,素有“大数据奥运会”之称的KDD Cup 2019在美国阿拉斯加成功举行,现场公布了各项竞赛结果,深兰科技DeepBlueAI团队获得KDD Cup 2019 AutoML Track挑战赛第一,并战胜了新加坡国立大学、阿里巴巴集团、清华大学、海康威视、微软亚洲研究院等顶尖学府及机构。
ACM SIGKDD由美国计算机协会数据挖掘与知识专业委员会发起,是数据挖掘领域公认的具有最高学术地位的国际性学术会议。KDD Cup作为目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,至今已有 22 年历史,每年都会吸引来自世界各地数据挖掘领域的顶尖专家、学者和工程师参赛。
今年是KDD Cup举办的第五次AutoML挑战赛,专注于时序相关数据的自动机器学习,参赛队伍达到800多支,是近几次AutoML竞赛中参赛队伍最多的一次。本届KDD Cup AutoML竞赛的Top10队伍均开源了解决方案,其中有许多优秀的思路和方法在竞赛中得以验证,也共同推进了AutoML的发展。此外,由深兰科技领衔的以空气质量预测为主题的论文被KDD 2019 ADS track录取为Oral Paper。
深兰科技DeepBlueAI团队的成员均毕业或就读于北京大学,他们在Feed-back阶段取得4项第一、1项第二,平均成绩排名第一;AutoML阶段平均指标领先第二名0.3,又得3项第一,最终以绝对优势获得冠军。
本次比赛中,选手需要针对时序相关数据来设计AutoML方案,用于解决二分类问题。主办方向选手们提供了5个数据集作为训练集来搭建和调优AutoML系统,每个数据集含有多个相关表格的数据,其中主表带有时间戳。关键挑战在于如何提取有用的时间信息、如何有效地合并多个表间的信息,以及如何避免由时间产生的数据泄露等传统数据挖掘竞赛不容易考虑到的问题。
与传统数据挖掘比赛不同的是,AutoML比赛中,参赛选手只知道数据的类型而不知道数据的含义,这毫无疑问会增加特征工程的难度。DeepBlueAI团队通过LightGBM模型来验证自动特征工程效果,在比赛中取得了显著优势。
而在自动化数据处理和自动化特征工程的过程中,针对类别数据在多类别数据中的位置这一特征,DeepBlueAI团队使用Cython对编码以及一些生成效率较慢的特征进行加速。由于本次竞赛的时间和内存有严格控制,像那些需要超过10秒才能生成的一类特征就算非常耗时的了。因此,在测试这段优化的过程中,纯粹的Python代码经过Cython优化,效率大概能到60秒。再进一步优化后,很轻松就能到达10秒内。
在这次竞赛中主要有几个比较重要的过程:自动化多表数据处理、自动多表连接、自动化特征工程、自动化模型构建、选择和融合。同时为了满足竞赛的时间和内存的需求,团队在代码上做了非常多的优化,比如使用了多线程、Cython、预处理、提前估算等方法。最后测试了大约数十个构造的极端数据集都成功运行,实践证明效果非常好。
时序相关数据的数据挖掘难度较大,在传统的机器学习应用中,需要经验丰富的专家才能从时序关系型数据中挖掘出有效的时序信息,并加以利用提升机器学习模型的效果。即使具备较深的知识储备,专家也需要通过不断的尝试和试错,才能构建出有价值的时序特征,并且利用好多个相关联表来提升机器学习模型的性能。而AutoML系统能够有效地缓解这个问题,相当程度上“解放”了人工智能工程师的双手。而时序关系型数据在在线广告、推荐系统、金融市场分析、医疗等应用场景中非常常见,人们往往需要利用这样的数据去构建机器学习模型,并应用其提升对应业务的效果。以在线广告点击率预测问题为例,每个样本就是向用户展示广告,样本标记为用户是否点击广告。因为是实际的服务系统,所有样本都是时序产生。
深兰科技在自身产品的开发中也已使用了自研AutoML系统,以深兰科技应用于建青实验学校的AI教育“一手通”为例,通过这款系统设备采集的数据,再经过AutoML系统自动建模可以分析出学生的兴趣爱好,随后进行个性化教学。在坚持加强基础研究的道路上,深兰科技披荆斩棘、不忘初心,将继续把更多搭载先进技术的产品推向市场,真正实现服务民生。相关文章
- Yeelight Pro集成驱动程序上线Control4全球数据库,开启全屋智能新时代
- “无智联,不AI”品智联接数据通信商业市场创新峰会成功举办
- 数智加速 华为极简全闪数据中心Pro+暨新品发布会即将举行
- 5G基站“智能午休”,数据中心“精打细算” 浙江移动低碳科技打造“绿色流量”
- 综合实力TOP10、蝉联生态图谱、入选创新案例,博大数据三冕加身再出发
- 数据为笔绘少年答卷!2025 少年开发者人工智能大赛复评答辩完美收官,决赛蓄势待发
- 花瓣地图与GrabMaps签署合作备忘录,深化东南亚地图数据合作
- 喜讯!科士达全变频智慧氟泵自然冷精密空调荣获2024年度数据中心用户满意产品奖
- 亚信科技、跨境数科助力上海打造“国际数据港”,成立联合实验室
- 商业大数据企业纷纷布局B端业务,B端市场或成必争之地
- 科士达参编国家标准,引领绿色数据中心新时代
- 浪潮瑶台预制模块化数据中心入选《中国-上海合作组织数字技术工具箱(2025)》
- 零次方机器人启动全模态数据采集中心,破解具身智能“卡脖子”难题
- Dell PowerScale以多项创新推动数据中心未来发展
- 全球最大三维空间数据库再攀高峰!如视数字空间采集量突破5000万
- 睿是信息携手Arctera,深化服务中国市场,共筑数据管理新未来
人工智能技术
更多>>人工智能公司
更多>>人工智能硬件
更多>>- 从灵感到成片 三星Galaxy S25 Ultra让影像创作更高效
- 芯原推出经市场验证的ZSP5000视觉核心系列,扩展其面向边缘智能的数字信号处理器IP组合
- 从双城救援到DJI FC100发布:大疆无人机重塑应急救援新方式
- 大朋VR AI眼镜预发布,从 VR 领航者到 AI 穿戴开拓者
- 录音界的“黑科技”!索尼ICD-TX660:专业录音、高效随行
- 重磅!方芯半导体推出国产EtherCAT从站控制芯片,原位替代Microchip LAN9252/9253/9254
- 大疆发布旗舰级运载无人机DJI FC100:80kg载重、9分钟快充,开启无人机运载新时代
- 智能健康领域新突破:Ulook脑机智能眼镜正式上市,重新定义“眼-脑-心理”联动新范式