Rokid发布自研XR数字人技术，支持用户打造专属数字人形象-爱云资讯

首页人工智能公司正文

近日，国内AR头部企业Rokid正式发布自研XR数字人技术，支持用户“捏”出专属数字人形象，同时，该技术还将对行业开放，支持第三方XR开发者通过SDK集成，接入数字人引擎服务，开发属于自己的数字人形象和体系。目前，该技术已正式接入Rokid Air App（v1.8.7版本）中，多人在线协同应用MSpace也已实现支持多个用户以数字人形象同时在线进行会议、观影等交互活动，打造更广泛的在线交互场景。

自由“捏”脸设计，让用户都能成为元宇宙“女娲”

在设计上，Rokid 自研XR数字人在写实风格与卡通风格中进行了平衡。通过采用五头身比例，让数字人的面部特征与表情动作更加突出和生动，同时也更具亲和力，可广泛适配各年龄段人群并被应用在XR 的社交、游戏、工作，以及商超、展陈、导览等场景。同时，Rokid自研XR数字人还分别设计了眉毛、眼睛、鼻子、嘴巴、脸型以及服装组合，通过五官和服装的自由搭配组合,可以让用户“捏”出更具个性的数字人形象。

在打造个性化形象的同时，Rokid还在效果呈现和所需资源消耗方面进行了平衡。通过采用更少的网格面来表现，Rokid自研XR数字人技术大大降低了资源消耗和硬件负荷，以便实现在算力有限的硬件上，如AR眼镜、手机端等同时驱动大量数字人，进而推动数字人在多人在线的同屏社交场景使用。

目前，Rokid自研XR数字人已基本满足亚裔人群特征。未来Rokid还将推出更多的五官分类组合和动作，更多样的肤色、发型、发色以及不同地域风格的服装、道具等，让不同的国家和地区的用户都可以创作出具备独有特征、妆容、服装以及道具的数字人。

让数字人听音而动，自研音频驱动技术突破行业难题

数字人的模型有了，该如何让数字人动起来？

目前，业内一般通过面部捕捉的方式来采集面部动画的数据，从而让数字人“动”起来，例如ARkit，Faceware，DynamicXYZ等，就是通过捕捉演员的表情动作，然后再映射到高精度的3D角色面部上。

面部捕捉的方式虽然解决了数字人表情灵动的问题，但在现实应用中，如AR眼镜等设备并不支持面部捕捉。同时，线上会议等场景还需要数字人能实时生成动画，面部捕捉的方式并不适用。因此，让数字人的表情帧和声音帧同频，嘴部动画的实时生成就成为了行业难题。

对此，Rokid技术团队拿出了最新研发成果——ASR（自动语音识别技术）到音素+bs系数的音频驱动方案。

通过ASR（自动语音识别技术）到音素+bs系数的音频驱动方案，无需额外的摄像头对表情动作进行捕捉，Rokid自研XR数字人就能实现口型与表情动作与真人同步匹配。

同时，不同于业界目前普遍采用的ASR（自动语音识别技术）将语音识别成文字，然后通过TTS（从文本到语音）输出音素+bs系数的音频驱动方案，Rokid自研XR数字人采用的音频驱动方案，基于多年积累的ASR技术，省掉了将语音识别成文字，再由文字输出音素的环节，在保持识别准确度不低于行业标准的情况下，以更短的识别路径、更低的延迟（相对业界降低延迟30%）、更低性能要求的驱动方案实现了数字人声音帧和表情帧的绝对同步。

此外，在移动端，Rokid自研XR数字人解决方案单帧处理时间实现了低于3ms/frame，且CPU占用率能保证的在10%以下。

降低接入门槛，Rokid自研XR数字人技术将对外开放

一个行业的繁荣通常离不开两个要素的跃迁：第一是生产效率的提升，第二是应用成本的降低。这样的逻辑在三次工业革命中得到了淋漓尽致的诠释，同样也适用XR数字人生态的建设。因此，在不断优化数字人性能的同时，Rokid自研XR数字人技术还将对外开放，让更多XR行业开发者都能参与到元宇宙数字人生态建设中。

一方面，Rokid自研XR数字人作为YodaOS-XR的系统形象，将支持第三方XR开发者通过SDK集成，接入数字人引擎服务，开发属于自己的数字人形象和体系。另一方面，Rokid还将推出数字人管理平台，支持XR开发者可以通过数字人管理平台进行数字人形象、服装、道具等设计，以数字人引擎共同丰富元宇宙生态。

数字人作为人们在元宇宙中穿梭的通行证和身份标识，赋予了人们对数字人的无尽想象，也在无形中加速着XR数字人产品的演进。XR数字人的繁荣需要“先行者”们持续尝试，不断沉淀，Rokid也希望通过对XR数字人技术的开放，与XR行业开发者、用户一起让人类对数字人的美好想象逐步成为现实。