谷歌使用AI追踪2D视频中的物体 或可用于自动驾驶汽车物体识别
2020-04-02 11:50:06爱云资讯
(图片来源:ai.googleblog.com)
追踪3D物体是一项复杂的工作,特别是当计算资源有限时。当仅有的可用图像为2D时,由于缺乏数据以及物体外观和形状多种多样,这会变得更加困难。
为此,Objectron研发团队开发了一种工具,可以使注释器通过分屏视角显示2D视频帧,来标记物体的3D边界框(即矩形边框)。这些3D边界框将叠加在点云数据、摄像头位置和识别到的平面上。注释器在3D视图中绘制3D边界框后,再通过查看2D视频帧中的投影来验证其位置。而对于静态物体,注释器只需在单个帧中标记目标物体象即可。该工具还使用AR会话数据中的实际摄像头姿态信息,将物体的位置传输到所有帧。
(图片来源:ai.googleblog.com)
为了补充真实世界的数据,以提高AI模型预测的准确性,该团队开发了一个引擎,将虚拟物体放入包含AR会话数据的场景中。这允许使用相机姿态信息、检测到的平面,以及估算的照明,生成物理上可能的、并具有与场景匹配的照明的位置,从而产生高质量的合成数据,其中的渲染物体符合场景的几何形状,并无缝融入真实背景。在验证试验中,合成数据的运用使AI模型预测准确性提高了约10%。
此外,该团队表示,当前版本的Objectron模型足够轻巧,可以在旗舰移动设备上实时运行。借助LG V60 ThinQ,三星Galaxy S20 +和Sony Xperia 1 II等手机中的Adreno 650移动图形芯片,该模型能够每秒处理约26帧。
Objectron在MediaPipe中可用,MediaPipe是一个框架,用于构建跨平台的AI管道,该管道包括快速推理和媒体处理(如视频解码)。提供训练有素的识别鞋子和椅子的模型,以及端到端演示应用程序。
该团队表示,未来计划与研发社区共享其他解决方案,以刺激新的用例、应用和研究工作。此外,该团队打算将Objectron模型进行扩展,以识别更多类别的物体,并进一步提高其在设备中的性能。
- 多模态成新“时尚” 谷歌OpenAI万兴科技等出奇招探索多模态能力及应用
- 谷歌将探索AI写作,小美AI城惊艳亮相:AI世界中挑战与机遇并存
- 妙鸭相机海外同款火了 万兴科技旗下“Pixpic”登陆谷歌商店
- 谷歌开发者大会带来升级版Starline,微美全息推进3D显示+全息技术引领新高潮
- TalentOrg携手谷歌、爱点击,共探全球化发展策略
- 谷歌翻译现支持翻译图片内文字
- 谷歌折叠手机Pixel Fold首次在街头被发现
- 中国版“ChatGPT”真的来了,百度、微软、谷歌谁能突围?
- 谷歌Pixel Fold最新外观细节曝光:内外屏参数变化 相机模组造型熟悉
- 传音与谷歌建立全球战略合作伙伴关系,共推新兴市场数字化发展
- Poly博诣多款产品获谷歌及微软认证 加持混合办公生态
- 谷歌明年推8Gbps宽带服务 上行也不限速
- 谷歌Pixel 6a全球定价公布 新晋中端机7月21日开始发货
- Android 13亮相谷歌I/O大会,OPPO首批推出开发者预览版
- 谷歌收购数据科学公司Kaggle增强机器学习和AI业务
- 谷歌 Pixel 6 拆解,FD-SOI首次被用于5G毫米波