业内首个数据集高级清洗服务 百度EasyData智能数据服务平台免费试用中
2020-09-04 16:37:49AI云资讯1189
通常来讲,在清洗数据时主要会清理掉对训练任务没有用途的数据,例如在训练工厂工人佩戴安全帽识别模型时,希望在视频抽帧后的大量图片中仅保留有工人出现的图片进行标注训练。在这一步骤上,传统做法是进行人工筛选,人力投入较多且容易发生遗漏;随着人工智能发展,目前许多平台,如百度大脑AI开放平台,已经提供人脸检测、人体检测的通用接口,用户可以先调用接口处理数据,筛选出采集到人像的数据,再进入到具体的检测识别步骤。那么,是否有一个集成了各项数据处理能力,尽量减少人工干预,能够自动完成视频数据采集、抽帧、数据清洗、智能标注,从而高效提取高质量训练数据的解决方案呢?
关注到有越来越多的用户对数据处理有强烈需求,今年4月,百度全新推出智能数据服务平台EasyData,集数据采集、数据清洗、数据标注等功能于一身,完成上述数据处理工作之后,可以在EasyDL平台进行模型训练、模型部署。
针对数据清洗这一具体功能,EasyData目前上线了去相似、去模糊、旋转、裁剪和镜像这5种基础的数据清洗功能。那么除了常规能力之外,EasyData还有什么业内独家的终极秘技?
从应用出发,高级清洗功能让数据处理事半功倍
在园区智能管理等场景下,需要监测工厂园区、林区中是否有人闯入,或检查工人是否佩戴安全帽。为了满足此类场景下的图片清洗需求,EasyData上线了高级清洗功能,将无人脸、无人体出现的数据进行过滤。EasyData联动百度大脑AI开放平台提供的前沿技术能力,用户仅需在百度智能云上开通相应的服务(人脸检测和人体检测都可以免费试用),就可以通过简单的配置,在EasyData平台上直接使用这些功能进行自动数据清洗。
1、过滤无人脸图片
如果以前没有用过百度智能云的人脸检测服务,第一次使用高级清洗的功能会提示“申请免费试用”,点击链接会进入百度智能云人脸检测的页面,按照提示,开通服务后,再回到EasyData的页面就可以正常使用了。
和基础的数据清洗服务一样,过滤无人脸图片也是以数据集为单位的。在数据清洗页面选择过滤无人脸图片,点击保存,提交任务就可以进行清洗。如果勾选了“保留标签”,那么不仅会把没有人脸的图片过滤,还会将人脸画框同步至清洗后的数据集。

提交任务时勾选保留人脸画框
例如下图,清洗前的数据集除了人脸图片,还有一些风景照、车辆等其他物体的照片,人脸过滤会把这些没有人脸的图片过滤,保留下来包含人脸的图片,包括戴口罩、被遮挡的人脸也可以识别出来。

清洗前的数据集中有人脸照片、风景照、静物照

清洗后的数据集只有人脸照片被保存下来

戴口罩的人脸图片
2、过滤无人体图片
过滤无人体图片同样会用到百度智能云的人体检测能力,在使用之前需要在百度智能云上开通相应的服务。过滤无人体图片会用到两个接口,人体检测和属性分析(https://ai.baidu.com/tech/body/attr)和人像分割(https://ai.baidu.com/tech/body/seg)。数据集模板为图像分类和物体检测的数据集会调用人体检测和属性分析接口,数据集模板为图像分割的数据集会调用人像分割接口。百度智能云上的人像分割接口返回的是人像图片对应的二值图片(人像为1,背景为0),在后端会执行相应的标签转换,返回的二值图片转换成对应的标签。

清洗前的数据集中有风景图、静物图和人体图

数据清洗过滤保留的5张人体图片

模板为图像检测的数据集清洗后的标签

模板为图像分割的数据集清洗后的标签
关注广泛需求,提供多种基础数据清洗功能
1、去相似图片
用摄像头自动采集图片的时候,由于长时间在同一个场景下,即使做了抽帧处理,还是会有大量的相似图片。大量的相似图片,数据价值低,而且占用了大量的存储空间,而人工筛选,耗时费力,容易出错。EasyData平台推出的去相似图片利用图片的相似检索特征,计算图片的两两相关性,可以自动地判断相似图片、保留不相似的图片,具体操作也十分简便。
如下图所示,去相似前的数据集里有8张图片,根据图片的相似度,图片可以分成3类。清洗完成后的数据集中有3张图片,分别是清洗前的3类图片中的一张。

去相似前的8张图片

去相似后保留下来3张图片

拖拽圆点可以修改相似度分值
2、去模糊图片
相机抖动、物体快速移动都会造成拍出来的图片不清晰、产生低质图片。通过人工挑选的方法去除模糊图片缺乏统一的标准,容易漏删或多删。利用EasyData的去模糊图片,可以轻易地去除模糊图片。
以示例图片为例,清洗前有5张图片,画质不一,清洗后保留下来两张高质量的图片。此外,如果用户认为有部分模糊图片没有去除,或者高质量的图片没有保留下来,可以考虑调整清晰度的分值,重新清洗。

去模糊前的5张画质不一的图片

去模糊后保留下来清晰图片

拖拽圆点可以修改清晰度分值
对于普通清洗,可以在一个清洗任务中提交多个清洗操作,例如同时勾选去相似、去模糊功能,即可同时去除相似和模糊的图片。
目前的数据清洗服务所能支持的最大数据集大小是5万张图片。基于EasyData平台的大数据处理平台,对于基础清洗服务,2万张图片的数据集,仅需1小时可以完成清洗;5万张图片的数据集,只需2小时即可完成清洗。对于高级清洗服务来说,清洗效率也可以通过配置QPS灵活调整清洗效率,更方便快捷。
考虑到智能园区管理等场景中,有对视频进行截帧、自动上传的需求,EasyData平台也免费提供SDK,供用户进行下载,可以将SDK接入业务现场的数据采集终端,在平台设置截帧时间与间隔,自动将原始视频数据截为图片数据并上传至EasyData平台进行后续处理。
EasyData是百度大脑推出的业内首个提供软硬一体、端云协同的智能数据采集与处理平台,支持图片、文本、音频和视频四类数据的处理,其中图片数据支持了采集、清洗、标注一站式处理,覆盖模型开发中的各类数据管理需求。EasyData处理后的数据可直接应用于EasyDL模型训练,通过EasyDL预训练模型和自动迁移学习机制,高效开发AI模型。
相关文章
- AI-Ready Data Platform:星环科技打造面向AI时代的数据基础设施
- 2026 挑战杯揭榜挂帅启幕 思迈特软件发布AI数据创新重磅命题
- 每日互动携个知·智能工作站亮相2026全球数据周 融入全球数字生态
- 筑牢数字中国底座 国产数据库从可用到引领的硬核突围
- 易智瑞时空智能解决方案:空间数据走向“问策“时代
- 聚合数据AI创作体验中心上线HappyHorse 1.0,原生音画联合生成赋能视频创作生态
- 共赴「芯」征程丨科华数据携手无问芯穹,与国产芯片厂商共同打造企业级“Token工厂”一体化解决方案
- 2026数字中国创新大赛总决赛圆满落幕,数据应用赛道创新成果引领行业发展
- 亮相国家数据局分论坛,云基华海第九届数字中国峰会释放数据要素新动能
- 浪潮 KaiwuDB 亮相 OpenClaw 开发者日,分享Agentic AI 时代数据底座建设思路
- 双奖加冕!中移互联网携“梧桐数盾”“梧桐数御”亮相第三届数据要素创新发展大会
- 清华大学数字政府与治理研究院携数据要素价值释放和场景示范应用成果亮相数字中国峰会
- 聚焦电力交易痛点:中科天机携手飔合科技,以精准气象数据为交易提质增效
- 契合OCP开放计算标准!瑞典希恩CEJN重磅推出两款全新数据中心产品: PBMC枢转盲插接头与液冷软管
- CAN/LIN诊断工具再进阶!聚焦车载与工业通信,Kvaser(克萨)免费通用工具CanKing 7.4.0重磅更新,搭载实时信号绘图功能,赋能总线数据高效调试
- 第九届数字中国峰会现场,趣链科技董事长李伟“三词箴言”定义数据要素流通新逻辑
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









