谷歌的图像字幕人工智能正在变得可怕
2019-02-12 15:42:45AI云资讯1854
谷歌发布了其机器学习系统的最新版本,该系统可以确定图像中的内容和字幕,并且它比以往更好。该公司还将其开源。谷歌自2014年以来一直致力于该计划,现在称该算法可以描述准确率为93.9%的图片。
对于使用Inception体系结构的最新迭代,Google团队面临的一个重要问题是,算法是否可以做的不仅仅是识别之前图像集中的对象。为了真正解释和标注照片,AI不仅需要了解图片中的内容,还需要了解图像中某些对象如何相互作用。Google的开发人员表示,这不仅仅是数据的“反刍”。该算法必须能够自然地了解图像中的对象及其用途。
“令人兴奋的是,”博客文章称,“我们的模型确实能够在呈现全新场景时生成准确的新字幕,从而更深入地了解图像中的对象和背景。” 同样重要的是,“它学会了如何用自然的英语短语来表达这些知识,尽管除了阅读人类标题之外,没有接受过额外的语言训练。”
机器学习算法被证明至少在目前对静止图像有更大的理解,而不是视频。
相关文章
- 易海创腾受邀出席谷歌2026代理商大会,共话出海新生态
- 谷歌“打样”智能眼镜新范式,中国厂商凭供应链强势突围
- 谷歌将在AI模式下增加信息来源索引范围
- OpenAI宣布进入“红色警报”状态,谷歌在人工智能领域加速追赶
- 再次受邀谷歌峰会丨华曦达 AI Home重塑运营商家庭业务
- 谷歌发布新一代大模型Gemini 3,AI搜索能力显著增强
- 谷歌利用新AI模型升级天气预报功能
- 芯原与谷歌联合推出开源Coral NPU IP
- 苹果人工智能服务计划采用定制版谷歌Gemini技术
- 谷歌推出AI虚拟试鞋功能,可即刻预览上脚效果
- 谷歌DeepMind的新型AI模型可通过网络搜索帮助机器人完成任务
- 谷歌新款Windows桌面应用为PC端带来类苹果Spotlight搜索栏
- 谷歌Waymo获准在旧金山提供机场接送服务
- 谷歌公布Gemini使用权限
- 苹果为Siri开发的AI搜索工具或将利用谷歌的Gemini AI模型来汇总网络信息
- 谷歌已完成AI眼镜开发,或由HTC代工量产









