谷歌的图像字幕人工智能正在变得可怕
2019-02-12 15:42:45爱云资讯1571
谷歌发布了其机器学习系统的最新版本,该系统可以确定图像中的内容和字幕,并且它比以往更好。该公司还将其开源。谷歌自2014年以来一直致力于该计划,现在称该算法可以描述准确率为93.9%的图片。
对于使用Inception体系结构的最新迭代,Google团队面临的一个重要问题是,算法是否可以做的不仅仅是识别之前图像集中的对象。为了真正解释和标注照片,AI不仅需要了解图片中的内容,还需要了解图像中某些对象如何相互作用。Google的开发人员表示,这不仅仅是数据的“反刍”。该算法必须能够自然地了解图像中的对象及其用途。
“令人兴奋的是,”博客文章称,“我们的模型确实能够在呈现全新场景时生成准确的新字幕,从而更深入地了解图像中的对象和背景。” 同样重要的是,“它学会了如何用自然的英语短语来表达这些知识,尽管除了阅读人类标题之外,没有接受过额外的语言训练。”
机器学习算法被证明至少在目前对静止图像有更大的理解,而不是视频。
相关文章
- 苹果全力研发增强现实AR眼镜,谷歌/微美全息夯实领先优势开启空间交互时代!
- OpenAI拟从谷歌收购Chrome
- 谷歌最新发布Agent2Agent 协议 (A2A)
- 谷歌地图推出新工具,助力城市分析基础设施与交通状况
- 亚马逊首款量子计算芯片Ocelot亮相,微软/谷歌/微美全息竞逐加速量子行业成熟
- 阿里开源模型万相2.1引爆视频赛道!谷歌/微美全息加入全模态AI开源新时代!
- 谷歌公布2025年I/O开发者大会日期,定档5月20日
- 三星与谷歌联手开发AR眼镜,Meta/微美全息硬件先行共绘XR未来蓝图
- 谷歌量子芯片重磅登场掀热潮,微美全息持续打造量子“芯”质生产力
- Meta携手卡梅隆共铸3D沉浸世界,谷歌/微美全息创新引领全息虚拟新纪元
- 抢先OpenAI Sora谷歌新推Veo模型,亚马逊/微美全息加入AI视频生成竞赛引关注
- 谷歌DeepMind发布Gemini 2.0人工智能模型
- 2025年AI Agent商用蓄势待发,微软/谷歌/微美全息纷纷入局重塑AI全产业链
- 谷歌发布突破性量子计算芯片Willow:五分钟完成超算10的25次方年的计算
- 预报天气更快、更准确!谷歌发布AI天气预测模型GenCast
- 谷歌文生视频模型Veo私人预览版在Vertex AI平台上线