IBM构建了一个更加多样化的面向数据集,以帮助减少AI中的偏见

2019-01-30 06:44:34爱云资讯昕梓

将偏见编码到机器学习模型中,并且通常编入我们称为AI的构造中,几乎是不可避免的 - 但我们可以肯定比过去几年做得更好。 IBM希望新的数百万数据库能够更好地反映现实世界中的数据库。


面部识别依赖于从解锁手机到前门的一切,并用于估计您的情绪或犯罪行为的可能性 - 我们不妨承认这些应用程序中的许多都是无聊的。但即使是优秀的测试也经常会失败,例如与某些肤色或年龄的人充分合作。

这是一个多层次的问题,当然其中很大一部分是这些系统的许多开发人员和创建者都没有考虑,更不用说审计数据中表示失败。

这是每个人都需要更加努力的事情,但实际的数据也很重要。如果没有包含所有人员的数据集,您如何训练计算机视觉算法以便与所有人一起使用?

每一组都必然是有限的,但建立一个拥有足够的人,没有人被系统地排除在外的是一个有价值的目标。凭借其新的百万图像多样性面部(DiF)设置,这就是IBM试图创建的。正如介绍该集的论文所述:

为了使面部识别能够按照要求执行 - 既准确又公平 - 训练数据必须提供足够的平衡和覆盖。训练数据集应足够大且多样化,以便了解面部固有差异的多种方式。图像必须反映我们在世界中看到的面部特征的多样性。

这些面孔来自一个巨大的1亿图像数据集(Flickr Creative Commons),通过它,另一个机器学习系统徘徊,并尽可能多地找到面孔。然后将它们隔离并裁剪,这就是真正的工作开始的时候。

这些集合意味着被其他机器学习算法所摄取,因此它们需要多样化且准确标记。所以DiF集合有一百万个面孔,每个面孔都附有元数据,描述眼睛之间的距离,额头的大小等等。所有这些测量一起创建了系统将用于例如将一个图像匹配到同一个人的另一个图像的“面部印记”。

但是,任何给定的一组测量结果可能会或可能不会有助于识别人,或者对某个种族群体是准确的,或者对你有什么影响。因此,IBM团队整理了一套修订版,不仅包括功能之间的距离等简单内容,还包括这些措施如何相互关联;例如,眼睛上方的这个区域与鼻子下方区域的比例如何。还包括肤色,以及对比度和着色类型。

在一个早就应该采取的行动中,根据频谱而不是二进制来检测和编码集合中的性别。由于性别本身是非二叠体的,因此将它表示为0到1之间的任何分数是有意义的。所以你真正拥有的是一个衡量个体如何呈现从女性到男性的规模的指标。

年龄也是自动估计的,但对于这两个最后的值,一种“现实检查”也包括在“主观注释”字段的形式中,其中人们被要求标记男性或女性的面部并猜测年龄。这里可能存在重新编码的偏差,因为从人类采购往往会引入它。与其他任何公开的面部识别训练集相比,所有这些都可以实现更广泛的测量。

你可能想知道为什么种族或种族不是一个类别 - IBM的John R. Smith领导了该组的创建,在一封电子邮件中向我解释:

种族和种族经常互换使用,虽然第一种与文化更相关,第二种与生物学有关。两者之间的界限并不明显,并且标签在先前的工作中是非常主观和嘈杂的。相反,我们选择专注于可以可靠地确定的编码方案,并且具有可以为多样性分析提供支持的某种连续规模。我们可能会回到其中一些主观范畴。

然而,即使有一百万个面孔,也无法保证这一组具有足够的代表性 - 所有组和子集中都有足够的以防止偏差。事实上,史密斯似乎确定不是,这是唯一合乎逻辑的立场:

我们无法在第一版数据集中确保这一点。但是,这是目标。首先,我们需要弄清楚多样性的维度。我们通过从本版本开始的数据和编码方案开始。然后我们迭代。希望我们在此过程中带来更大的研究团体和行业。

换句话说,这是一项正在进行的工作。但是所有的科学都是如此,尽管经常出现失误和破坏的承诺,面部识别无疑是一种我们都将参与未来的技术,无论我们喜欢与否。

任何人工智能系统都只能与其构建的数据一样好,因此数据的改进将长时间流行。与任何其他集合一样,DiF可能会通过迭代来解决缺点,添加更多内容并整合使用它的研究人员的建议或请求。您可以在这里申请访问。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023