谷歌的图像字幕人工智能正在变得可怕-爱云资讯

谷歌发布了其机器学习系统的最新版本，该系统可以确定图像中的内容和字幕，并且它比以往更好。该公司还将其开源。谷歌自2014年以来一直致力于该计划，现在称该算法可以描述准确率为93.9%的图片。

对于使用Inception体系结构的最新迭代，Google团队面临的一个重要问题是，算法是否可以做的不仅仅是识别之前图像集中的对象。为了真正解释和标注照片，AI不仅需要了解图片中的内容，还需要了解图像中某些对象如何相互作用。Google的开发人员表示，这不仅仅是数据的“反刍”。该算法必须能够自然地了解图像中的对象及其用途。

“令人兴奋的是，”博客文章称，“我们的模型确实能够在呈现全新场景时生成准确的新字幕，从而更深入地了解图像中的对象和背景。” 同样重要的是，“它学会了如何用自然的英语短语来表达这些知识，尽管除了阅读人类标题之外，没有接受过额外的语言训练。”

机器学习算法被证明至少在目前对静止图像有更大的理解，而不是视频。