腾讯微视凭BLENDer模型斩获VCR竞赛榜第一
2020-11-30 15:41:55AI云资讯762
视觉常识推理VCR (Visual Commonsense Reasoning )是人工智能领域的前沿热点问题,我国《新一代人工智能发展规划》中也将从处理类型单一的数据到跨媒体认知、学习和推理的“跨媒体智能”纳入五大智能方向。
近日,腾讯微视视频理解团队在多模态理解领域最权威排行榜之一VCR任务中荣登榜首。该团队提出的BLENDer(BimodaL ENcoDer)模型超越百度、谷歌、微软、Facebook等多家研究机构的模型效果,一举成为单、多模型的三项指标第一,值得注意的是,BLENDer仅凭单模型效果便超越了此前榜单上的多模型最好效果,赋予了机器更强大的理解和认知能力,并深度应用到短视频领域。

赶超百度、谷歌等,腾讯微视AI团队登顶VCR榜首
VisualCommonsense Reasoning (VCR)任务于2018年由华盛顿大学的研究人员首次提出,任务旨在将图像和自然语言理解二者结合,验证多模态模型高阶认知和常识推理的能力,让机器拥有“看图说话”的能力, 例如VCR能够通过图片中人物的行为,进一步推理出其动机、情绪等信息。VCR榜单是多模态理解领域最权威的排行榜之一,也是当前图像理解和多模态领域层次最深、门槛最高的任务之一,吸引了微软、谷歌、Facebook、百度、UCLA等国内外公司和研究机构纷纷参与。

此次拔得头筹的单模型BLENDer来自于腾讯微视视频理解团队,超越上一届榜首百度团队的多模态预训练模型 ERNIE-ViL-large成为新的VCR榜单霸主。

据相关负责人介绍,BLENDer模型已经应用到腾讯微视产品中,赋予了平台更强大的认知能力,使得包含文本、音频、视频等多种媒体信息在内的短视频内容,能够更好的做到分类和识别,更加精准理解和挖掘这些海量的跨媒体信息。例如当腾讯微视用户创作视频后平台可识别内容并精准推荐适合的话题,也能根据内容属性快速推荐给感兴趣的用户,增强创作内容的曝光。
腾讯微视视频理解团队提出的单模型BLENDer,是基于前沿的视觉语言Bert模型,将整个学习过程分成三个阶段,最终将任务的三项问答准确率一举提高到了81.6, 86.4, 70.8的水平,仅是BLENDer单模型上的表现已经超过此前各业界公司和研究机构的多模型融合效果。

在BLENDer模型中,第一阶段以NLP中的Bert模型为起点,结合海量数据中抽取得到的数百万张图片和对应描述文本作为BLENDer的输入进行多模态训练;第二阶段,在视觉常识推理数据集上学习电影中的场景和情节,使模型在新数据上获得更好的迁移能力;第三阶段,引入最终问答任务,让BLENDer利用已有的知识和常识对现有问题进行人物-人物、人物-场景之间关系的挖掘和关联进行推理,得到最终的答案。
腾讯微视将人工智能技术赋能短视频
一直以来,腾讯微视高度关注技术研发,腾讯微视视频理解团队更是长期深耕多模态语义理解领域,持续进行技术突破和落地,将相关技术应用在海量图像、视频、文本等跨媒体信息的认知推理中。
同时,腾讯微视团队也不断从业务出发探索前沿领域,并将人工智能技术应用到短视频生态中,贯穿内容创作、内容审核以及内容分发的各个环节。
在内容创作环节,腾讯微视将3D人脸、人体、GAN等AI技术结合AR技术辅助用户进行内容创作,让创作过程更加便捷、有趣和普惠;在视频审核环节,腾讯微视借助图像检测、分类、多模态理解等AI技术精准识别视频内容,提升审核效率,使得用户生产的内容最快时间触达消费者,目前腾讯微视内容处理效率已取得业界领先水平;而在视频分发环节,腾讯微视借助AI技术从非结构化的图像、音频、文本数据中提取结构化信息输出,如标签、特征等,支撑分发精准匹配用户。
未来,人工智能将具备更加多元、深度的交流学习能力,而技术的创新和精进将进一步推动AI技术在短视频业务中智能交互场景的落地。
相关文章
- 腾讯与特斯拉共同升级座舱体验,正式上线微信互联与目的地服务
- 腾讯游戏启动2026寒假未成年人保护专项行动,AI功能助力家庭科学管控
- 腾讯云助力炫佳科技全新升级一站式AI短剧平台 平均制作效率提升90%
- 生态共赢 赞同科技携手腾讯云斩获三项大奖
- 绿联科技联手腾讯游戏:打造“NAS+游戏”新生态,突破存储设备功能局限
- 腾讯云 WeData 升级三大 Data+AI 能力,位居一体化数据智能平台市场第一!
- 腾讯云智能体开发平台升级:做深平台、做厚内容、做强应用,构筑Agent产业合作新生态
- 从工具辅助到认知革命:天立与腾讯的战略共振如何重塑学习未来
- 腾讯云发布 AI 数据湖解决方案,支持 CPU和GPU 混合调度
- 智效跃迁,架构无界,第三届腾讯云架构师峰会圆满落幕!
- 腾讯云ADP国内首发AI原生Widget:一句话秒级生成交互组件,重塑Agent使用体验
- 绝味食品牵手腾讯打造AI会员智能体 满足消费者多元化需求
- 腾讯视频与北京电影学院达成战略合作 共建“AI影视联合实验室”
- 高端消费科技品牌 xTool 递表港交所:个人创意工具全球龙头,腾讯领投 2 亿美元 pre-IPO
- 四川具身科技新品发布,腾讯云全栈AI能力助力提升机器人情感交互能力
- 腾讯云Valkey社区贡献位居全球第一,率先在国内支持8.0版本
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









