京东探索研究院：多模态技术是未来人工智能应用发展的方向-爱云资讯

首页人工智能公司正文

日前，第29届ACM国际多媒体顶级会议（ACM International Conference on Multimedia, 简称ACM Multimedia）在成都举行，京东探索研究院AI团队凭借多模态交互数字人技术、跨模态分析技术分别斩获最佳演示奖及最佳开源项目奖。会上，京东集团副总裁梅涛当选ACM Multimedia 2023大会共同主席（General Co-Chair）。

ACM Multimedia是计算机科学领域中多媒体领域的首要国际会议，1993年以来每年召开一次，已成为多媒体领域顶级盛典，大会致力于推动多媒体的研究和应用，京东探索研究院的该两项获奖技术均为ACM Multimedia颁发的该技术领域唯一奖项，分量十足。

过去十年多媒体领域视觉和语言之间的跨模态分析出现了稳定创新和突破的势头。然而，X-modaler出现之前，还没有一个开源的代码库来支持以统一和模块化的方式训练和部署众多的跨模态分析的神经网络模型。京东探索研究院的跨模态视觉分析代码库X-modaler是业界首个模块化、标准化的跨模态视觉分析代码库，涵盖了视觉语言领域各种前沿技术，并支持各种多模态任务。它可以轻松复现视觉语言领域目前主流的技术，促进学术界在视觉语言领域的发展。同时也便于工业界集成跨模态视觉分析的模块，推动AI在工业互联网应用的落地应用和技术进步。

在传统的AI认知中，视觉领域、语音领域、自然语言领域等领域之前是独立演进的技术和应用，可以认为是单模态技术，而人是一个看、听、说多模态共同工作的智能体，所以多模态技术是未来人工智能应用发展的方向。京东探索研究院的多模态交互数字人技术ViDA-Man致力于打造具备多感官交互能力的人机交互系统，深入多模态交互技术研究，专注于人机交互的消费科技产品打造。基于该技术开发的多模态交互数字人形象引擎，能够提供快速的形象定制能力，从外观的数字化逐渐深入到行为的交互化、情绪的智能化。

近年来，数字浪潮的推动让人工智能技术已经实现从不可用到可用，AI产品化时期，诸如智能语音识别技术、智能图片处理技术、基于用户兴趣的算法引擎推荐、智能审核技术、AR/VR技术、5G技术等成为了AI落地的抓手，掀起了科技创新的新浪潮。京东集团副总裁梅涛表示，获奖技术早已服务于京东云打造的虚拟数字人、拍照购、搭配购等多个产品，并开始在产业化、商业化项目中广泛应用。

这些技术已大规模应用于正在如火如荼展开的京东11.11。如，基于计算机视觉以图搜图的搜索应用，辅助以语音对话交互技术的“拍照购”和“搭配购”功能已在刚刚拉开帷幕的京东11.11中大放异彩，通过拍照或截图方式，直接匹配搭配好的时尚单品，打造“一站加购”、“一键买齐”的购物新体验，帮助商家强种草、高转化。

今年京东11.11期间，针对商品营销内容推出的智能写作服务“达人写作”，形成一篇百余字商品文案仅需300毫秒，5分钟可以创作出1000篇文案，覆盖近3000个商品品类，累计生成3,000万AI内容，相比于人工撰写内容点击转化率超过40%，成本降低93.2%。

除京东内部应用之外，这些获得国际学术界顶尖荣誉的领先技术正在通过京东云这个统一平台输出对外赋能各行各业。比如，基于多模态交互数字人技术研发的“虚拟数字人”能助力京东云智能客服产品提升智能接待、服务和虚拟助手的体验。比如，京东云智能客服业务与某银行合作，打造了全国第一个交互式数字人项目“数字柜员”，有别于播报式数字人，“数字柜员”涉及VTM虚拟坐席交互，利用AI技术，实现用虚拟人替代真人柜员办理业务、把控风险。

可以看到，京东AI技术之所以能取得如此优异的成绩，是其在真实复杂场景的有效实践和千锤百炼。作为京东集团对外技术输出的窗口，京东云不仅是政府、企业、家庭数字化转型全生命周期合伙人，并基于人工智能、大数据、云计算、物联网、区块链、隐私计算等技术，通过数智化全链条技术服务，助力千行百业数字化转型，激发产业无限可能。