历经6年,AI在这一技能上得分首超人类
2021-08-12 13:56:02爱云资讯568
8月12日,记者注意到,国际权威机器视觉问答榜单VQA Leaderboard出现关键突破:阿里巴巴达摩院以81.26%的准确率创造了新纪录,让AI在“读图会意”上首次超越人类基准。继2015年、2018年AI分别在视觉识别及文本理解领域超越人类分数后,人工智能在多模态技术领域也迎来一大进展。
(达摩院AliceMind在VQALeaderboard上创造首次超越人类的纪录)
“诗是无形画,画是有形诗。”宋代诗人张舜民曾描绘语言与视觉的相通之处。“读图会意”,即通过视觉理解信息,是人类的一项基础能力,但对AI来说却是要求极高的认知任务。解决该挑战,对研发通用人工智能有重要意义。近10年来,AI在下棋、视觉、文本理解等单模态技能上突飞猛进,但在涉及视觉-文本跨模态理解的高阶认知任务上,AI过去始终未达到人类水平。
为攻克这一难题而设立的挑战赛VQAChallenge,自2015年起先后于全球计算机视觉顶会ICCV及CVPR举办,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构踊跃参与,并形成了国际上规模最大、认可度最高的VQA(Visual Question Answering)数据集,其包含超20万张真实照片、110万道考题。
VQA是AI领域难度最高的挑战之一。在测试中,AI需根据给定图片及自然语言问题生成正确的自然语言回答。这意味着单个AI模型需融合复杂的计算机视觉及自然语言技术:首先对所有图像信息进行扫描,再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题。
(VQA技术自2015年的进展)
今年6月,阿里达摩院在VQA 2021 Challenge的55支提交队伍中夺冠,成绩领先第二名约1个百分点、去年冠军3.4个百分点。两个月后,达摩院再次以81.26%的准确率创造VQALeaderboard全球纪录,首次超越人类基准线80.83%。
VQA的核心难点在于对多模态信息进行联合推理认知,即在统一模型里做不同模态的语义映射和对齐。据了解,达摩院NLP及视觉团队对AI视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义融合和对齐技术、知识驱动的多技能AI集成等,让AI“读图会意”水平上了一个新台阶。
VQA技术拥有广阔的应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等领域,或将变革人机交互方式。
报道显示,这不是阿里达摩院第一次在AI关键领域超越人类基准。2018年,达摩院曾在斯坦福SQuAD挑战赛中历史性地让机器阅读理解首次超越人类,引发海外媒体关注。今年以来,达摩院在AI底层技术领域动作频频,先后发布了中国科技公司中首个超大规模多模态预训练模型M6及首个超大规模中文语言模型PLUG,并开源了历经3年打造的深度语言模型体系 AliceMind(https://github.com/alibaba/AliceMind),其曾登顶 GLUE等六大国际权威NLP榜单。
(VQA考题列举,根据有礼服装饰的小熊玩具照片及问题“这些玩具用来做什么的?”达摩院AliceMind成功推理出一个可能的答案“婚礼”)
相关文章
- 亿道数码携骁龙AI PC矩阵亮相高通科技日,定义移动办公轻时代
- 直击WAIC 2025 | 浩鲸科技联合蚂蚁数科发起“金融智能体应用联创联盟”
- 多模态AI融入日常交互 用三星Galaxy手机搭建效率工作流
- 引领智能运维!全新FortiAIOps 3.0重新定义IT运营
- 得瑞领新闪耀2025全球闪存峰会:D8000系列斩获创新大奖,强势赋能AI时代数据基石
- WAIC 2025 | SHIXP将与PPIO共建分布式智算枢纽平台
- 2025 WAIC落幕,深谋科技以技术与落地破局具身智能赛道
- AI赋能基层“智治” 湖北移动打造数字乡村治理新样本
- AI重磅奖项揭晓!用友大易荣膺人力资源服务业AI25强及思旗奖
- 中国最大黑客松AdventureX 2025杭州启幕,涂鸦赋能青年开发者引爆Physical AI变革
- WAIC2025:澳鹏发布新一代技术平台矩阵 助力大模型垂直应用落地
- 共建AI PC企业服务生态,京东政企业务携手高通打造骁龙AI PC生态科技日
- 2025 WAIC“智算技术创新与行业实践” 论坛圆满落幕 共绘智算生态新蓝图
- 四维图新亮相2025世界智能汽车大会:以AI新基建与数据闭环赋能智驾新范式
- 星辰聚智·才启未来:2025世界人工智能大会中国电信发布系列前沿能力及AI产品
- 神州云动CRM亮相2025浪潮AI向新 数字企业创新大会