商汤科技宣布通用视觉研究平台OpenGVLab正式开源-爱云资讯

2月25日，商汤科技正式对外宣布通用视觉平台OpenGVLab正式发布并开源，开放内容包括超高效预训练模型，和千万级精标注、十万级标签量的公开数据集，将为全球开发者提升各类下游视觉任务模型训练提供重要支持。

同时，OpenGVLab还同步开放业内首个针对通用视觉模型的评测基准，便于开发者对不同通用视觉模型的性能进行横向评估和持续调优。

据了解，去年11月，由上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学，联合发布的通用视觉技术体系“书生”（INTERN）。OpenGVLab继承了“书生”体系的技术优势，其开源的预训练模型具有超高的性能和通用性。

具体来看，相较于当前最强开源模型（OpenAI 于2021年发布的CLIP），OpenGVLab的模型可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务，在准确率和数据使用效率上均取得大幅提升。基于同样的下游场景数据，开源模型在分类、目标检测、语义分割及深度估计四大任务26个数据集上，平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。开源模型在分类、检测、分割和深度估计中，仅用10%的下游训练数据就超过了现有其他开源模型。

商汤方面介绍，使用此模型，研究人员可以大幅降低下游数据采集成本，用极低的数据量，即可快速满足多场景、多任务的AI模型训练。

OpenGVLab还提供多种不同参数量、不同计算量的预训练模型，以满足不同场景的应用。模型库中列出了多个模型，其在ImageNet的微调结果和推理资源、速度，相比于之前的公开模型均有不同程度的性能提升。

超大量级的精标注数据集不仅整合了现有的开源数据集，还通过大规模数据图像标注任务，实现了对图像分类、目标检测以及图像分割等任务的覆盖，数据总量级近七千万。开源范围涵盖千万级精标注数据集和十万级标签体系。

伴随OpenGVLab的发布，上海人工智能实验室还开放了业内首个针对通用视觉模型的评测基准，弥补通用视觉模型评测领域的空白。

此外，商汤方面表示，目前OpenGVLab开源平台（opengvlab.shlab.org.cn）已正式上线，供各界研究人员访问和使用，后续项目还将开通在线推理功能，供所有对人工智能视觉技术感兴趣的社会人士自由体验。