Google发布了包含500万张图片和20万个地标的AI培训数据集-爱云资讯

设计能够准确识别实例级地标的人工智能系统（即区分尼亚加拉瀑布和任何瀑布）和检索图像（将图像中的对象与目录中该对象的其他实例相匹配）是谷歌人工智能研究部门长期以来的追求。去年，它发布了谷歌地标（Google Landmarks），当时它声称是世界上最大的地标数据集，并举办了两次竞赛（地标识别2018和地标检索2018），500多名机器学习研究人员参加了这两个竞赛。

如今，为了实现更为复杂的地标检测计算机视觉模型的目标，Google开源了Google-Landmarks-v2，这是一种新的、更大的地标识别资料库，包含两倍于照片和七倍于地标的信息。此外，它在其机器学习社区Kaggle上发起了两个新挑战（Landmark Recognition 2019和Landmark Retrieval 2019），并发布了区域图像检索框架Detect to Retrieve的源代码和模型。

“实例识别和图像检索方法都需要在图像数量和各种地标中使用更大的数据集，以便训练更好、更强大的系统，”谷歌人工智能软件工程师Cao Bingyi和Tobias Weyand写道。“我们希望此数据集将有助于提高实例识别和图像检索的先进水平。”

根据Bingyi和Weyand的说法，Google-Landmarks-v2包含了超过500万张来自世界各地摄影师收集的20多万个不同地标的图像。这些照片贴上了自己的图片标签，描绘了新天鹅堡、金门大桥、清水寺、哈利法塔、吉萨大狮身人面像、马丘比丘等著名景点，并将其纳入其中。然后，谷歌的研究人员用维基媒体共享资源（Wikimedia Commons）的历史和鲜为人知的图像对它们进行了补充，维基媒体基金会免费使用图片、声音和其他媒体的在线存储库。

那么，Detect to Retrieve框架是如何处理的呢？Cao和Weyand说，发布的模型，它是在原始地标数据集的80000个子集上训练的，利用了对象检测模型中的边界框，为包含感兴趣项目的图像区域赋予了“额外的权重”，显著提高了准确性。

Landmark Recognition 2019和Landmark Retrieval 2019都是开放式的，这两个版本都要求参赛者设计Landmark Detecting人工智能模型，而Landmark Retrieval 2019则要求参赛者使用人工智能系统来查找显示目标地标的图像。这两个奖项都包括总额为5万美元的现金奖，Bingyi和Weyand表示将邀请获奖团队在今年晚些时候在加利福尼亚州长滩举行的2019年计算机视觉和模式识别会议的第二次地标识别研讨会上展示他们的方法。

Google发布了包含500万张图片和20万个地标的AI培训数据集

相关文章

人工智能技术

人工智能公司

人工智能硬件

人工智能产业