IBM构建了一个更加多样化的面向数据集,以帮助减少AI中的偏见
2019-01-30 06:44:34爱云资讯
将偏见编码到机器学习模型中,并且通常编入我们称为AI的构造中,几乎是不可避免的 - 但我们可以肯定比过去几年做得更好。 IBM希望新的数百万数据库能够更好地反映现实世界中的数据库。
面部识别依赖于从解锁手机到前门的一切,并用于估计您的情绪或犯罪行为的可能性 - 我们不妨承认这些应用程序中的许多都是无聊的。但即使是优秀的测试也经常会失败,例如与某些肤色或年龄的人充分合作。
这是一个多层次的问题,当然其中很大一部分是这些系统的许多开发人员和创建者都没有考虑,更不用说审计数据中表示失败。
这是每个人都需要更加努力的事情,但实际的数据也很重要。如果没有包含所有人员的数据集,您如何训练计算机视觉算法以便与所有人一起使用?
每一组都必然是有限的,但建立一个拥有足够的人,没有人被系统地排除在外的是一个有价值的目标。凭借其新的百万图像多样性面部(DiF)设置,这就是IBM试图创建的。正如介绍该集的论文所述:
为了使面部识别能够按照要求执行 - 既准确又公平 - 训练数据必须提供足够的平衡和覆盖。训练数据集应足够大且多样化,以便了解面部固有差异的多种方式。图像必须反映我们在世界中看到的面部特征的多样性。
这些面孔来自一个巨大的1亿图像数据集(Flickr Creative Commons),通过它,另一个机器学习系统徘徊,并尽可能多地找到面孔。然后将它们隔离并裁剪,这就是真正的工作开始的时候。
这些集合意味着被其他机器学习算法所摄取,因此它们需要多样化且准确标记。所以DiF集合有一百万个面孔,每个面孔都附有元数据,描述眼睛之间的距离,额头的大小等等。所有这些测量一起创建了系统将用于例如将一个图像匹配到同一个人的另一个图像的“面部印记”。
但是,任何给定的一组测量结果可能会或可能不会有助于识别人,或者对某个种族群体是准确的,或者对你有什么影响。因此,IBM团队整理了一套修订版,不仅包括功能之间的距离等简单内容,还包括这些措施如何相互关联;例如,眼睛上方的这个区域与鼻子下方区域的比例如何。还包括肤色,以及对比度和着色类型。
在一个早就应该采取的行动中,根据频谱而不是二进制来检测和编码集合中的性别。由于性别本身是非二叠体的,因此将它表示为0到1之间的任何分数是有意义的。所以你真正拥有的是一个衡量个体如何呈现从女性到男性的规模的指标。
年龄也是自动估计的,但对于这两个最后的值,一种“现实检查”也包括在“主观注释”字段的形式中,其中人们被要求标记男性或女性的面部并猜测年龄。这里可能存在重新编码的偏差,因为从人类采购往往会引入它。与其他任何公开的面部识别训练集相比,所有这些都可以实现更广泛的测量。
你可能想知道为什么种族或种族不是一个类别 - IBM的John R. Smith领导了该组的创建,在一封电子邮件中向我解释:
种族和种族经常互换使用,虽然第一种与文化更相关,第二种与生物学有关。两者之间的界限并不明显,并且标签在先前的工作中是非常主观和嘈杂的。相反,我们选择专注于可以可靠地确定的编码方案,并且具有可以为多样性分析提供支持的某种连续规模。我们可能会回到其中一些主观范畴。
然而,即使有一百万个面孔,也无法保证这一组具有足够的代表性 - 所有组和子集中都有足够的以防止偏差。事实上,史密斯似乎确定不是,这是唯一合乎逻辑的立场:
我们无法在第一版数据集中确保这一点。但是,这是目标。首先,我们需要弄清楚多样性的维度。我们通过从本版本开始的数据和编码方案开始。然后我们迭代。希望我们在此过程中带来更大的研究团体和行业。
换句话说,这是一项正在进行的工作。但是所有的科学都是如此,尽管经常出现失误和破坏的承诺,面部识别无疑是一种我们都将参与未来的技术,无论我们喜欢与否。
任何人工智能系统都只能与其构建的数据一样好,因此数据的改进将长时间流行。与任何其他集合一样,DiF可能会通过迭代来解决缺点,添加更多内容并整合使用它的研究人员的建议或请求。您可以在这里申请访问。
- IBM 推出AI 增强的数据弹性功能,打造更安全的存储解决方案应对勒索软件及其他威胁
- IBM 最新报告: 身份信息成网络攻击重要目标,企业从安全漏洞恢复的时间更加紧迫
- 携手共创,未来可期:来自IBM大中华区董事长、总经理的新春致辞
- IBM咨询与长城汽车达成长期合作协议,以集成供应链为切入点助其构建全新价值管理体系
- IBM携手合作伙伴,为制造企业翰博高新构建整合企业应用的集成平台
- IBM赴乌镇十年之约,不怠韶华征程有光
- IBM携watsonx强势归来,倾力招募“中国合伙人“,共创共赢企业级AI新时代
- 云蝠服饰SAP二期项目启动,百胜软件、IBM等合力赋能企业新零售转型
- IBM:以强大存力与算力夯实AI基础架构,让技术真正转化为业务价值
- 洲邦科技携手IBM,为制造业提供AI赋能的解决方案
- IBM 2023 技术交流大会将展示watsonx全新升级, watsonx.governance技术预览版及新模型等一一亮相
- IBM陈旭东:打造AI核心竞争力,企业需要解决三大挑战
- 携手IBM LinuxONE,共创企业级AI的绿色技术底座
- IBM携手美网协会,AI解说和AI抽签分析将亮相2023美网公开赛数字平台
- IBM:应对复杂数据安全挑战,企业需依靠专业的安全产品、服务及开放的安全生态
- IBM推出新QRadar安全套件,加速威胁检测和响应