Rokid发布自研XR数字人技术,支持用户打造专属数字人形象

2022-07-22 10:47:44爱云资讯

近日,国内AR头部企业Rokid正式发布自研XR数字人技术,支持用户“捏”出专属数字人形象,同时,该技术还将对行业开放,支持第三方XR开发者通过SDK集成,接入数字人引擎服务,开发属于自己的数字人形象和体系。目前,该技术已正式接入Rokid Air App(v1.8.7版本)中,多人在线协同应用MSpace也已实现支持多个用户以数字人形象同时在线进行会议、观影等交互活动,打造更广泛的在线交互场景。

自由“捏”脸设计,让用户都能成为元宇宙“女娲”

在设计上,Rokid 自研XR数字人在写实风格与卡通风格中进行了平衡。通过采用五头身比例,让数字人的面部特征与表情动作更加突出和生动,同时也更具亲和力,可广泛适配各年龄段人群并被应用在XR 的社交、游戏、工作,以及商超、展陈、导览等场景。同时,Rokid自研XR数字人还分别设计了眉毛、眼睛、鼻子、嘴巴、脸型以及服装组合,通过五官和服装的自由搭配组合,可以让用户“捏”出更具个性的数字人形象。

在打造个性化形象的同时,Rokid还在效果呈现和所需资源消耗方面进行了平衡。通过采用更少的网格面来表现,Rokid自研XR数字人技术大大降低了资源消耗和硬件负荷,以便实现在算力有限的硬件上,如AR眼镜、手机端等同时驱动大量数字人,进而推动数字人在多人在线的同屏社交场景使用。

目前,Rokid自研XR数字人已基本满足亚裔人群特征。未来Rokid还将推出更多的五官分类组合和动作,更多样的肤色、发型、发色以及不同地域风格的服装、道具等,让不同的国家和地区的用户都可以创作出具备独有特征、妆容、服装以及道具的数字人。

让数字人听音而动,自研音频驱动技术突破行业难题

数字人的模型有了,该如何让数字人动起来?

目前,业内一般通过面部捕捉的方式来采集面部动画的数据,从而让数字人“动”起来,例如ARkit,Faceware,DynamicXYZ等,就是通过捕捉演员的表情动作,然后再映射到高精度的3D角色面部上。

面部捕捉的方式虽然解决了数字人表情灵动的问题,但在现实应用中,如AR眼镜等设备并不支持面部捕捉。同时,线上会议等场景还需要数字人能实时生成动画,面部捕捉的方式并不适用。因此,让数字人的表情帧和声音帧同频,嘴部动画的实时生成就成为了行业难题。

对此,Rokid技术团队拿出了最新研发成果——ASR(自动语音识别技术)到音素+bs系数的音频驱动方案。

通过ASR(自动语音识别技术)到音素+bs系数的音频驱动方案,无需额外的摄像头对表情动作进行捕捉,Rokid自研XR数字人就能实现口型与表情动作与真人同步匹配。

同时,不同于业界目前普遍采用的ASR(自动语音识别技术)将语音识别成文字,然后通过TTS(从文本到语音)输出音素+bs系数的音频驱动方案,Rokid自研XR数字人采用的音频驱动方案,基于多年积累的ASR技术,省掉了将语音识别成文字,再由文字输出音素的环节,在保持识别准确度不低于行业标准的情况下,以更短的识别路径、更低的延迟(相对业界降低延迟30%)、更低性能要求的驱动方案实现了数字人声音帧和表情帧的绝对同步。

此外,在移动端,Rokid自研XR数字人解决方案单帧处理时间实现了低于3ms/frame,且CPU占用率能保证的在10%以下。

降低接入门槛,Rokid自研XR数字人技术将对外开放

一个行业的繁荣通常离不开两个要素的跃迁:第一是生产效率的提升,第二是应用成本的降低。这样的逻辑在三次工业革命中得到了淋漓尽致的诠释,同样也适用XR数字人生态的建设。因此,在不断优化数字人性能的同时,Rokid自研XR数字人技术还将对外开放,让更多XR行业开发者都能参与到元宇宙数字人生态建设中。

一方面,Rokid自研XR数字人作为YodaOS-XR的系统形象,将支持第三方XR开发者通过SDK集成,接入数字人引擎服务,开发属于自己的数字人形象和体系。另一方面,Rokid还将推出数字人管理平台,支持XR开发者可以通过数字人管理平台进行数字人形象、服装、道具等设计,以数字人引擎共同丰富元宇宙生态。

数字人作为人们在元宇宙中穿梭的通行证和身份标识,赋予了人们对数字人的无尽想象,也在无形中加速着XR数字人产品的演进。XR数字人的繁荣需要“先行者”们持续尝试,不断沉淀,Rokid也希望通过对XR数字人技术的开放,与XR行业开发者、用户一起让人类对数字人的美好想象逐步成为现实。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023