IBM构建了一个更加多样化的面向数据集,以帮助减少AI中的偏见
2019-01-30 06:44:34爱云资讯720
将偏见编码到机器学习模型中,并且通常编入我们称为AI的构造中,几乎是不可避免的 - 但我们可以肯定比过去几年做得更好。 IBM希望新的数百万数据库能够更好地反映现实世界中的数据库。
面部识别依赖于从解锁手机到前门的一切,并用于估计您的情绪或犯罪行为的可能性 - 我们不妨承认这些应用程序中的许多都是无聊的。但即使是优秀的测试也经常会失败,例如与某些肤色或年龄的人充分合作。
这是一个多层次的问题,当然其中很大一部分是这些系统的许多开发人员和创建者都没有考虑,更不用说审计数据中表示失败。
这是每个人都需要更加努力的事情,但实际的数据也很重要。如果没有包含所有人员的数据集,您如何训练计算机视觉算法以便与所有人一起使用?

每一组都必然是有限的,但建立一个拥有足够的人,没有人被系统地排除在外的是一个有价值的目标。凭借其新的百万图像多样性面部(DiF)设置,这就是IBM试图创建的。正如介绍该集的论文所述:
为了使面部识别能够按照要求执行 - 既准确又公平 - 训练数据必须提供足够的平衡和覆盖。训练数据集应足够大且多样化,以便了解面部固有差异的多种方式。图像必须反映我们在世界中看到的面部特征的多样性。
这些面孔来自一个巨大的1亿图像数据集(Flickr Creative Commons),通过它,另一个机器学习系统徘徊,并尽可能多地找到面孔。然后将它们隔离并裁剪,这就是真正的工作开始的时候。
这些集合意味着被其他机器学习算法所摄取,因此它们需要多样化且准确标记。所以DiF集合有一百万个面孔,每个面孔都附有元数据,描述眼睛之间的距离,额头的大小等等。所有这些测量一起创建了系统将用于例如将一个图像匹配到同一个人的另一个图像的“面部印记”。
但是,任何给定的一组测量结果可能会或可能不会有助于识别人,或者对某个种族群体是准确的,或者对你有什么影响。因此,IBM团队整理了一套修订版,不仅包括功能之间的距离等简单内容,还包括这些措施如何相互关联;例如,眼睛上方的这个区域与鼻子下方区域的比例如何。还包括肤色,以及对比度和着色类型。
在一个早就应该采取的行动中,根据频谱而不是二进制来检测和编码集合中的性别。由于性别本身是非二叠体的,因此将它表示为0到1之间的任何分数是有意义的。所以你真正拥有的是一个衡量个体如何呈现从女性到男性的规模的指标。
年龄也是自动估计的,但对于这两个最后的值,一种“现实检查”也包括在“主观注释”字段的形式中,其中人们被要求标记男性或女性的面部并猜测年龄。这里可能存在重新编码的偏差,因为从人类采购往往会引入它。与其他任何公开的面部识别训练集相比,所有这些都可以实现更广泛的测量。
你可能想知道为什么种族或种族不是一个类别 - IBM的John R. Smith领导了该组的创建,在一封电子邮件中向我解释:
种族和种族经常互换使用,虽然第一种与文化更相关,第二种与生物学有关。两者之间的界限并不明显,并且标签在先前的工作中是非常主观和嘈杂的。相反,我们选择专注于可以可靠地确定的编码方案,并且具有可以为多样性分析提供支持的某种连续规模。我们可能会回到其中一些主观范畴。
然而,即使有一百万个面孔,也无法保证这一组具有足够的代表性 - 所有组和子集中都有足够的以防止偏差。事实上,史密斯似乎确定不是,这是唯一合乎逻辑的立场:
我们无法在第一版数据集中确保这一点。但是,这是目标。首先,我们需要弄清楚多样性的维度。我们通过从本版本开始的数据和编码方案开始。然后我们迭代。希望我们在此过程中带来更大的研究团体和行业。
换句话说,这是一项正在进行的工作。但是所有的科学都是如此,尽管经常出现失误和破坏的承诺,面部识别无疑是一种我们都将参与未来的技术,无论我们喜欢与否。
任何人工智能系统都只能与其构建的数据一样好,因此数据的改进将长时间流行。与任何其他集合一样,DiF可能会通过迭代来解决缺点,添加更多内容并整合使用它的研究人员的建议或请求。您可以在这里申请访问。
相关文章
- IBM:AI实验的时代已结束,企业级AI智能体加速落地
- 迎接企业级智能体的时代:IBM发布全新AI智能体解决方案
- IBM专家观点:假如DeepSeek们使用了IBM AI存储
- IBM发布新一代大型主机IBM z17:为AI时代量身定制,全方位解锁企业级应用
- 华为优选认证赋能,税友AIBM战略领航财税数智化
- IBM发布2024年度报告:首席执行官Arvind Krishna致投资人的一封信
- IBM发布2025年大中华区战略:加码伙伴生态,深耕民营市场,共赢“AI+转型”和“出海”新机遇
- IBM专家观点:智算引擎LSF助力生命科学行业拥抱AI时代
- IBM携手欧莱雅推出首个AI模型,助力可持续、数据驱动的化妆品研发
- IBM原全球副总裁谢东正式履新北电数智首席技术官
- IBM 发布光学技术关键突破,生成式AI迎来“光速时代“
- IBM陈旭东:以再次入选世界互联网大会“精品案例“为契机,IBM将继续深耕中国、携手共创AI生产力
- IBM陈旭东:企业级AI无法“即插即用“,规模化应用关键在于认知、人才和数据
- IBM调研:技术高管全情投入生成式 AI,但管理层对IT基础服务的信心减弱
- 加速AI规模应用,释放企业新质生产力,IBM中国企业级AI巅峰论坛成功举办
- 借IBM watsonx之力,拥抱AI为先的未来