人工智能行业里的推动者:数据标注员
2020-02-22 16:35:52AI云资讯1386
在如今高速发展的人工智能行业里,有一群奠定了算法学习的基础的人,他们的职业是数据标注员。
据业内人士评估,全职的数据标注员如今已达到10万人,兼职人群的规模更是达到100万。他们将庞大的数据分类、画框,教会算法识别。经过他们标注的数据从原始数据变为标签化数据,从而推动算法模型的深度学习。
24岁的刘雪(化名)从未见过自动驾驶汽车,但她的工作却和自动驾驶的AI算法息息相关。
坐落于距北京市中心约两个小时车程的房山,有一家数据标注基地,刘雪就在这里办公。她每日的工作是在电脑前进行图片、文本或者声音的标注。比如通过数据标注工具,放大图片,将一辆巴士用矩形框圈出,并给这个框打上“巴士”的标签,然后继续在图像上标记其他车辆、行人及自行车。
Testin云测旗下的云测数据,通过自建数据标注基地和数据采集场景实验室为人工智能提供数据采集和标注服务。云测数据拥有行业内最大规模的专业数据服务全职人员,刘雪就是他们其中之一。这些数据标注员为自动驾驶、智慧城市、智能家居、金融AI等行业进行相关的数据采集标注,最终转化为产业智能化的数据动力。

鲜有人知的是,人工智能是需要被人为教导训练而成。人工智能所需要的教导,背后是由大量的训练数据训练而成。AI依据大量有效数据总结规律,并最终形成自己的工作模式。机器并不能理解原始数据,这些原始数据需要人为的“标签化”,赋予希望被机器所识别的内容才可以被用于训练。
Testin云测总裁徐琨接受CGTN采访时表示:“我们可以将标注好的数据比喻成学生所学习的课本,若课本内容不好,则学出的成果也达不到好的效果”,同时补充道“低精确度的算法可能有安全隐患,例如可能更容易用伪造身份骗过人脸识别应用”。
鉴于人工智能在各个行业的广泛应用,对数据标注的质量要求也在不断提高——现在大多数行业都要求数据标注精度要求已达到99.9%的正确率。而标注正确意味着在用于面部识别的图像中左眼不能被识别为右眼,在CT扫描图像中肝脏不能被归类为肺。

在一年多前,刘女士第一次参加数据标注项目,花了三天时间掌握了最基本的标注技能——初级的拉框和标注物体,她回忆说。
她的下一个项目,在道路场景中标注物体,则更具挑战性。需要她区分双黄线和虚线,以便自动驾驶汽车识别何时可以变道。她还需要准确地标注行人、自行车、摩托车和电动摩托车上的人,以便自动驾驶算法知道在现实生活中识别到这些物体时应如何做出决策。
“我们所从事的工作对人工智能的应用非常重要,”刘女士说如果一个物体标注错误,可能会导致交通事故。”

工作量因项目不同而有所不同。对于一个简单的人工智能标注项目,每天可以标注3000框。对于道路场景标注项目,可以标注大约2600个框。对于标注3D点云数据这一更为复杂的任务,每天处理的数据数量要少得多。
对于刘女士和她大多数20多岁的同事来说,目前数据标注工作是一项令人满意的工作。她遵循9点到6点的工作日程,享受周末假期(除非有紧急任务),根据自己的经验和工作表现,工资具有上升空间。
徐琨说,“尽管这项工作有时是重复性的,但人工智能的发展还没有到可以取代这个行业”,他表示“人工智能在中国尚处于起步阶段,未来,人们对人工智能应用带来的提高效率和降低成本的需求将呈螺旋式上升,对数据标注的需求也将激增”。

到目前为止,大多数公司都在以一种人机协同互补的方式应用人工智能。虽然人工智能被用来接管重复性的工作,但需要团队合作、创造力和社交技能的工作仍然需要人力投入。
对于24岁的刘女士来说,她觉得“工作会被人工智能替代”的说法很牵强。”如果人工智能产品像新生儿一样,那么软件开发人员就像父母一样,我们就是为新生儿制作食物的人,没有我们提供的食物,新生儿就无法生长。”
相关文章
- 全国人工智能发展大会 AI HANGZHOU 2026中国(杭州)国际人工智能展览会
- 亿达科创亮相国际人工智能展再获AI大奖
- 欢聚旗下百果园网络入选2025广州人工智能创新发展榜单
- 自主可控 智测未来|科大讯飞人工智能终端测试中心正式揭牌
- 北京国际人力获评世界品牌莫干山大会“人工智能+”生态创新实践范本
- 第九届数字中国建设峰会分论坛“人工智能产业发展和赋能新型工业化”主题交流活动在福州圆满落幕
- IBM咨询扩展人工智能能力,加速企业转型
- 点猫科技与新加坡华侨中学签署人工智能教育合作备忘录
- 许欢:人工智能应急大模型开启应急管理新发展时代
- 人工智能终端迎来“国家标尺” 联想以规模化产品实践助力标准编制
- SpaceX拟在得克萨斯州建设人工智能芯片工厂,总耗资达1190亿美元
- 微软放弃Xbox Copilot人工智能
- 人工智能助力新型工业化 第九届数字中国建设峰会工业智能产业生态大会成功举办
- 中兴通讯携手印尼XLSMART 在雅加达正式启动联合创新中心加速印尼 5G-Advanced 与人工智能发展与应用
- 马斯克出庭作证,诉讼指控OpenAI违背了打造惠及全人类的通用人工智能的核心使命
- 实力登榜!思特奇入选2026全国企业“人工智能+”行动创新案例TOP100
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









