Soul App开源SoulX-FlashHead，让实时数字人技术从机房走向个人工作站-AI云资讯

近日，Soul App在实时数字人领域取得新的技术进展——其旗下 Soul AI Lab 正式开源实时数字人生成模型 SoulX-FlashHead。该模型以 1.3B 参数规模，实现了在单张消费级显卡 RTX 4090 上稳定运行 96FPS 的工业级速度，同时兼顾画质表现，为实时数字人从专业算力环境走向更广泛应用场景提供了新的技术路径。

在此之前，Soul AI Lab 已于今年1月开源实时数字人模型 SoulX-FlashTalk。该模型以 0.87 秒的亚秒级延时、32FPS 的高帧率以及对超长视频稳定生成的支持，引发了行业对实时数字人技术可落地性的关注。相较于SoulX-FlashTalk，SoulX-FlashHead的核心突破在于进一步降低硬件门槛，将高保真实时生成能力从集中式算力环境延伸至个人工作站，使实时数字人不再局限于特定场景。例如，在7×24小时矩阵直播场景中，个人主播仅需一台游戏级PC，即可搭建高保真电商直播环境；在游戏领域，该模型体量小、易集成，能够支持 NPC 毫秒级响应，并避免对核心渲染资源造成占用；在教育场景中，模型支持 15 种语言的实时驱动，将音频转化为同步的数字人教学画面，适用于 AI 一对一外教等互动需求。

在具体性能表现上，SoulX-FlashHead 针对不同需求提供了 Lite 与 Pro 两个版本。Lite版本以高速率为目标，在单卡 RTX 4090 上可实现 96FPS 的推理速度，仅占用 6.4G 显存，并支持最高3路并发，使实时数字人首次具备在消费级终端规模化运行的可行性。Pro 版本则更注重画质，在单卡 RTX 5090 上可实现 16.8FPS，双卡条件下帧率可稳定在 25FPS 以上，其在视觉质量与唇形一致性指标上的表现达到SOTA。

在模型设计层面，针对长视频生成中常见的身份漂移问题，团队引入了双向蒸馏机制，通过具备全局视角的教师模型对生成过程进行强约束，使人物特征在长时间输出中保持稳定。与此同时，模型在流式生成中采用时序音频上下文缓存策略，强制保留 8 秒历史音频特征，用以弥补短音频切片带来的上下文缺失，从而改善口型抖动和同步偏差问题，提升整体观看体验。

数据层面，Soul AI Lab 构建了自研的 VividHead 数据集作为训练基础。该数据集从超过 10,000 小时素材中筛选出 782 小时高质量音画数据，并经过切分、关键点检测以及唇形一致性评分等多重处理流程，为模型训练提供了相对纯净且一致的数据基础。

在评测中，SoulX-FlashHead 在 HDTF 与 VFHQ 等权威数据集上展现了稳定表现。在高清视频评测中，Pro 版本以 8.31 的 FID 和 103.14 的 FVD 成绩取得领先，画面细腻度超过部分参数规模更大的模型；在复杂真实场景测试中，其 Sync-C 得分达到 5.60，口型同步表现明显提升。同时，Lite 版本在单张 RTX 4090 上实现 96FPS 的吞吐能力，远高于实时基准帧率，推理效率在同类模型中具备显著优势。

此次发布的SoulX-FlashHead 展示了Soul App在实时数字人领域的工程能力与研究深度，也为相关应用的规模化落地提供了可参考的技术范式。

Soul App开源SoulX-FlashHead，让实时数字人技术从机房走向个人工作站

相关文章

AI企业

AI硬件

AI产业

AI技术