京东探索研究院:多模态技术是未来人工智能应用发展的方向
2021-11-02 21:39:19AI云资讯1341
日前,第29届ACM国际多媒体顶级会议(ACM International Conference on Multimedia, 简称ACMMultimedia)在成都举行,京东探索研究院AI团队凭借多模态交互数字人技术、跨模态分析技术分别斩获最佳演示奖及最佳开源项目奖。会上,京东集团副总裁梅涛当选ACM Multimedia 2023大会共同主席(General Co-Chair)。
ACM Multimedia是计算机科学领域中多媒体领域的首要国际会议,1993年以来每年召开一次,已成为多媒体领域顶级盛典,大会致力于推动多媒体的研究和应用,京东探索研究院的该两项获奖技术均为ACM Multimedia颁发的该技术领域唯一奖项,分量十足。
过去十年多媒体领域视觉和语言之间的跨模态分析出现了稳定创新和突破的势头。然而,X-modaler出现之前,还没有一个开源的代码库来支持以统一和模块化的方式训练和部署众多的跨模态分析的神经网络模型。京东探索研究院的跨模态视觉分析代码库X-modaler是业界首个模块化、标准化的跨模态视觉分析代码库,涵盖了视觉语言领域各种前沿技术,并支持各种多模态任务。它可以轻松复现视觉语言领域目前主流的技术,促进学术界在视觉语言领域的发展。同时也便于工业界集成跨模态视觉分析的模块,推动AI在工业互联网应用的落地应用和技术进步。

在传统的AI认知中,视觉领域、语音领域、自然语言领域等领域之前是独立演进的技术和应用,可以认为是单模态技术,而人是一个看、听、说多模态共同工作的智能体,所以多模态技术是未来人工智能应用发展的方向。京东探索研究院的多模态交互数字人技术ViDA-Man致力于打造具备多感官交互能力的人机交互系统,深入多模态交互技术研究,专注于人机交互的消费科技产品打造。基于该技术开发的多模态交互数字人形象引擎,能够提供快速的形象定制能力,从外观的数字化逐渐深入到行为的交互化、情绪的智能化。

近年来,数字浪潮的推动让人工智能技术已经实现从不可用到可用,AI产品化时期,诸如智能语音识别技术、智能图片处理技术、基于用户兴趣的算法引擎推荐、智能审核技术、AR/VR技术、5G技术等成为了AI落地的抓手,掀起了科技创新的新浪潮。京东集团副总裁梅涛表示,获奖技术早已服务于京东云打造的虚拟数字人、拍照购、搭配购等多个产品,并开始在产业化、商业化项目中广泛应用。
这些技术已大规模应用于正在如火如荼展开的京东11.11。如,基于计算机视觉以图搜图的搜索应用,辅助以语音对话交互技术的“拍照购”和“搭配购”功能已在刚刚拉开帷幕的京东11.11中大放异彩,通过拍照或截图方式,直接匹配搭配好的时尚单品,打造“一站加购”、“一键买齐”的购物新体验,帮助商家强种草、高转化。
今年京东11.11期间,针对商品营销内容推出的智能写作服务“达人写作”,形成一篇百余字商品文案仅需300毫秒,5分钟可以创作出1000篇文案,覆盖近3000个商品品类,累计生成3,000万AI内容,相比于人工撰写内容点击转化率超过40%,成本降低93.2%。
除京东内部应用之外,这些获得国际学术界顶尖荣誉的领先技术正在通过京东云这个统一平台输出对外赋能各行各业。比如,基于多模态交互数字人技术研发的“虚拟数字人”能助力京东云智能客服产品提升智能接待、服务和虚拟助手的体验。比如,京东云智能客服业务与某银行合作,打造了全国第一个交互式数字人项目“数字柜员”,有别于播报式数字人,“数字柜员”涉及VTM虚拟坐席交互,利用AI技术,实现用虚拟人替代真人柜员办理业务、把控风险。

可以看到,京东AI技术之所以能取得如此优异的成绩,是其在真实复杂场景的有效实践和千锤百炼。作为京东集团对外技术输出的窗口,京东云不仅是政府、企业、家庭数字化转型全生命周期合伙人,并基于人工智能、大数据、云计算、物联网、区块链、隐私计算等技术,通过数智化全链条技术服务,助力千行百业数字化转型,激发产业无限可能。
相关文章
- 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单
- 合合信息入选“科创板价值50强”,多模态文本智能技术助推AI应用升级
- 小度AI眼镜Pro获评WISE2025年度焦点产品奖,多模态交互定义硬件新形态
- Tech Times:灵光6天200万次下载,中国首款多模态 AI助手并非“昙花一现”
- 昆仑万维正式发布Skywork R1V4-Lite,多模态智能体迈向开放式交互时代
- 智象未来团队荣获ACM Multimedia 2025最佳演示奖,多模态生成式AI技术领跑全球
- 128 卡 4 天时间!百度百舸助力 LLaVA-OneVision-1.5 刷新多模态大模型训练效率纪录
- 当虹科技率先发布ShowBiz AI2.0,以空间视频与AI多模态技术引领国产AIGC新赛道
- 华为马鹏:语音单模态到多模态通信,AI通话打造运营商业务入口
- 以科技创新推动产业创新专题 | 5倍提升!ShortDF突破多模态模型质、效困局
- ConvoAI&RTE2025 技术专场报名中丨多模态和语音 AI 年度收官大会!
- 快手发布多模态大模型Keye-VL-1.5 8B性能领先、视频理解能力更强
- 声网兄弟公司 Agora与OpenAI 携手 助力多模态 AI 智能体实现实时交互
- 火山引擎多模态数据湖落地深势科技,提升科研数据处理效能
- 千亿市场国产化!紫光汉图X商汤日日新:多模态AI打造“会判作业”的打印机
- Skywork Deep Research Agent重磅升级!带来更多模态、更高质量和更高效的体验
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









