VALSE 2018 涌多项顶级视觉科技旷视科技首展商品识别技术-爱云资讯

首页人工智能技术正文

4月20日至22日，第八届视觉与学习青年学者研讨会（Vision And Learning SEminar/ VALSE 2018）在美丽的大连如期举行。旷视科技Face++作为铂金赞助商和CV产业界代表受邀赴会，向海内外的专家、学者以及业界人士展示旷视研究院最新CV研究成果。

作为国内最大规模的机器视觉学术盛会，VALSE 2018不仅吸引了超过3000名国内外顶级专家、学者，刷新了历届参会热度，在嘉宾量级、内容质量和学术高度方面同样可圈可点。数十家CV代表企业的各式最新Demo和上百篇质量上乘的墙报得以亮相，其中抢鲜展示了CVPR 2018收录的979篇中的56篇；参会嘉宾大咖云集，西安电子科技大学“模式识别与智能系统”学科带头人高新波，ACM Fellow、IEEE Fellow、腾讯Robotics X实验室负责人张正友，澳大利亚国立大学著名3D视觉重建和机器人SLAM学者 Hongdong Li，前微软研究院资深研究员、京东AI研究院副院长梅涛等学界、业界顶级专家分别做了精彩纷呈的主题报告。

旷视科技Face++也向现场嘉宾做了精彩的学术分享，并汇报了旷视最新的学术工作进展以促进业界交流合作，共绘中国机器视觉事业蓝图。下文以3位旷视研究员的学术分享为主线，描绘旷视的VALSE 2018之行。

俞刚博士解读人体姿态估计冠军论文

2017 COCO 数据集竞赛中，旷视科技的两篇冠军论文《MegDet:A Large Mini-Batch Object Detector》、《Cascaded Pyramid Network for Multi-Person Pose Estimation》，在击败谷歌、微软等强劲对手之后，分别获得了2017 COCO物体检测和人体姿态估计第一名的瞩目佳绩。在VALSE 2018大会第一天的First VALSE Workshop on Methods and Technologies for Looking At People环节中，旷视资深研究员俞刚博士（曾带队参加2017 COCO竞赛获得物体检测和人体姿态估计双项第一）重点就第二篇论文作了主题报告。

旷视科技资深研究员俞刚博士

俞刚指出，多人姿态估计（Multi-Person Pose Estimation）是机器视觉领域绕不开的一个经典问题；在传统算法遭遇瓶颈之时，虽然卷积神经网络的再次崛起和快速迭代为解决这一问题带来了新工具，但还是存在一些百啃不动的“硬骨头”，比如关键点重叠、不可见以及复杂的背景。为此，旷视科技提出级联金字塔网络（Cascaded Pyramid Network/CPN），希望更好地解决关键点难以识别的问题。结果证明CPN非常奏效，在COCO test-dev数据集上平均精度（AP）达到73.0；在COCO test-challenge数据集上平均精度（AP）达到72.1，相较于2016年的最佳成绩（60.5）有19%的提升，从而实现了当前最优水平。

那么旷视提出的CPN是如何实现的呢？俞刚说大体在于一个two-stage的模型架构：GlobalNet和RefineNet（见下图），这是一种top-down pipeline，先通过检测器检测出图像之中的人，再把每个人抠出来并做单人姿态估计，最后把结果整合到原图上。CPN这种两阶段架构设计的想法其实也不复杂，甚至可以说是相当朴素直观，来源于人是怎么识别人体关键点，即由特征金字塔网络GlobalNet先识别出简单关键点，再由（借助online hard keypoint mining loss的）RefineNet整合来自前者的特征表征以识别余下的困难关键点。这样从易到难，层层推进，最终克服了关键点难以识别的问题。

级联金字塔网络（CPN）

这样做下来，我们也发现了一些有趣的事情和结论。CPN的检测框来自旷视研究院的Detection Team，如上所述旷视的MegDet以及Light-Head R-CNN取得了2017 COCO检测第一，所以我们很自然地对两者做了对比分析，结果发现检测平均精度（Detection mAP）对关键点平均精度(Keypoint mAP)的影响在达到一定阈值（Det mAP41.1）之后微乎其微，即前者的显著提升并不会促成后者的显著提升。再比如使用Large batch，可以把CPN的mAP提升0.4-0.7个百分点，这说明除了物体检测之外，Large batch同样适用于关键点识别。

张祥雨博士解读ShuffleNet v2

讲台之外，旷视的展台也不容忽视，学术分享的精彩程度与讲台之上俞刚博士的分享相得益彰。在旷视展区，旷视资深研究员张祥雨（2016 CVPR最佳论文ResNet作者之一）首次公开了独家干货ShuffleNet v2论文并亲自解读答疑，成为全场最受关注的焦点。ShuffleNet v2可谓是VALSE surprise，下面就扼要地为没有机会到现场的小伙伴们分享一下旷视研究院ShuffleNet v2的工作思想。

ShuffleNet v2 @ VALSE 2018

不同于侧重准确度高效的（给定计算量下的准确度）轻量级卷积神经网络（L-CNN），ShuffleNet v2 是一种侧重执行高效的（给定速度下的准确度）的新架构，而相比于MobileNet v2和ShuffleNet v1，ShuffleNet v2同时在GPU和ARM上显著提升了准确度/执行速度之间的权衡（参见下图）。

准确度/执行速度之间的权衡

L-CNN 在实际的计算机视觉处理系统中扮演着举足轻重的角色，其核心方向是开发出参数少、速度快、精度高的移动端神经网络。不同于以往一味地只追求准确度，最近的L-CNN架构设计逐渐转向了如何在计算复杂度（FLOPs）一定的情况下，更加高效地实现高准确度。但是，这依然不够，因为FLOPs和实际运行速度并不能划等号，可见在FLOPs一定的情况下，执行速度更快的架构，或者执行高效的模型在实际应用中同样不可或缺。

然而，在L-CNN领域，执行效率相比准确度效率更加不受关注，虽然一些新近研究成功实现了两者之间的权衡，但仍多是基于高效特征嵌入的启发法，或者准确度导向的模型搜索，是从准确度效率的角度思考和解决问题。而对于现有组件或架构，执行效率仅是锦上添花，一般无法在实际设备上达到最优。我们发现，随着平台和库优化越发复杂，准确度导向的研究在当前条件下推出实际的高效模型也越来越难。

张祥雨（右一）为大家现场讲解ShuffleNet v2论文

ShuffleNet v2 则为L-CNN模型的设计提供了一种以执行效率为导向的方法。首先，我们分析两个当前最优L-CNN模型的核心组件，通过一系列可控的评估进行相关操作的基准测试，从中得出可在我们平台上快速执行的4个启发式原则。正是基于上述原则，我们对ShuffleNet v1进行改进，提出了ShuffleNet v2，在GPU和ARM上其准确度/速度权衡明显优于同类模型。同时我们还评估了ShuffleNet v2在大型分类模型和物体检测任务上的泛化能力。

魏秀参博士展示旷视最新商品识别技术

旷视展台上的亮点还不止于此，除了ShuffleNet v2的良心披露与解读，旷视同样展示了不少产业前沿的应用演示，比如时下大火的ReID（旷视在2017年发表的 AlignedReID 分别在Market1501和CUHK03测试集中使首位命中率达到了94.0%和96.1%，使机器首次在行人再识别问题上超越人类从而创下业界纪录。）、视频结构化、人体关键点等，下面本文将重点介绍其中一个更新的研究成果——无人货架和商品识别，它出自旷视科技南京研究院，其负责人魏秀参博士在展台为观众们进行了详尽的解答。

魏秀参（左一）、俞刚（左二）、张祥雨（右一）

首先，旷视对于无人货架和商品识别研究的基础起源于旷视在AI +IoT产业进深中的切实需要。近年来，人工智能加快了对传统行业赋能的步伐，零售行业也不例外。零售中存在的众多简单重复且容易出错的人工处理环节，这是AI技术重塑零售行业、实现降本增效价值的最佳切入点。新零售作为一种AI改造和升级之后的全新零售业态，为体量巨大的零售业开拓了一片机遇和挑战并存的新战场。

旷视南京研究院这次在VALSE 2018上亮相的新零售Demo重点展示了自动理货和取物识别两大功能。理货，即统计货架上商品SKU的类别和数量，是线下零售中必不可少的一环。自动理货的目标是替代传统高价低效且易出错的人工理货方式，通过简单的拍照上传（或者本地处理）就能自动生成准确的店内审计报告，实现铺货率、排面数、货架占有率、促销执行度各项指标的全面智能化。取物识别，即自动识别顾客从货架上拿走的商品，在无人超市和无人货柜这样的重量级的新零售产品中有着重要的应用。目前，无人超市和无人货柜的自动结算技术主要是基于电子标签（RFID）的。这一技术有两个弊端：电子标签增加了额外的成本；结算时需要人工配合。如果使用纯视觉的取物识别技术来结算则可以完美的解决以上问题，让零售店面更“轻”、更“智能”，同时升级消费体验。

自2011年成立以来，VALSE人数的节节攀高从一定程度上反映了全国乃至全球计算机视觉技术的方兴未艾之势。通过VALSE，你可以一览学术最前沿，收获不同的视角，碰撞出启发性的火花。

旷视科技在分享之余，也唤醒了自己的学术信息触角，收获颇多。作为一家以计算机视觉为核心技术的公司，旷视坚守技术信仰与价值务实，致力于打造螺旋上升的“算法-产品-数据”闭环，实现软硬一体化，最终目的是“为了人工智能终将创造的所有美好”；而要做到以上，离不开底层的学术创新和一流的学术研讨氛围，因此对于包括旷视在内的所有CV公司来说，这是VALSE作为一个高水平、强互动的学术交流舞台的最大意义之一。

VALSE 2018 涌多项顶级视觉科技 旷视科技首展商品识别技术

VALSE 2018 涌多项顶级视觉科技旷视科技首展商品识别技术