Soul App开源SoulX-FlashHead,让实时数字人技术从机房走向个人工作站
2026-04-23 19:59:18AI云资讯2073
近日,Soul App在实时数字人领域取得新的技术进展——其旗下 Soul AI Lab 正式开源实时数字人生成模型 SoulX-FlashHead。该模型以 1.3B 参数规模,实现了在单张消费级显卡 RTX 4090 上稳定运行 96FPS 的工业级速度,同时兼顾画质表现,为实时数字人从专业算力环境走向更广泛应用场景提供了新的技术路径。

在此之前,Soul AI Lab 已于今年1月开源实时数字人模型 SoulX-FlashTalk。该模型以 0.87 秒的亚秒级延时、32FPS 的高帧率以及对超长视频稳定生成的支持,引发了行业对实时数字人技术可落地性的关注。相较于SoulX-FlashTalk,SoulX-FlashHead的核心突破在于进一步降低硬件门槛,将高保真实时生成能力从集中式算力环境延伸至个人工作站,使实时数字人不再局限于特定场景。例如,在7×24小时矩阵直播场景中,个人主播仅需一台游戏级PC,即可搭建高保真电商直播环境;在游戏领域,该模型体量小、易集成,能够支持 NPC 毫秒级响应,并避免对核心渲染资源造成占用;在教育场景中,模型支持 15 种语言的实时驱动,将音频转化为同步的数字人教学画面,适用于 AI 一对一外教等互动需求。
在具体性能表现上,SoulX-FlashHead 针对不同需求提供了 Lite 与 Pro 两个版本。Lite版本以高速率为目标,在单卡 RTX 4090 上可实现 96FPS 的推理速度,仅占用 6.4G 显存,并支持最高3路并发,使实时数字人首次具备在消费级终端规模化运行的可行性。Pro 版本则更注重画质,在单卡 RTX 5090 上可实现 16.8FPS,双卡条件下帧率可稳定在 25FPS 以上,其在视觉质量与唇形一致性指标上的表现达到SOTA。
在模型设计层面,针对长视频生成中常见的身份漂移问题,团队引入了双向蒸馏机制,通过具备全局视角的教师模型对生成过程进行强约束,使人物特征在长时间输出中保持稳定。与此同时,模型在流式生成中采用时序音频上下文缓存策略,强制保留 8 秒历史音频特征,用以弥补短音频切片带来的上下文缺失,从而改善口型抖动和同步偏差问题,提升整体观看体验。

数据层面,Soul AI Lab 构建了自研的 VividHead 数据集作为训练基础。该数据集从超过 10,000 小时素材中筛选出 782 小时高质量音画数据,并经过切分、关键点检测以及唇形一致性评分等多重处理流程,为模型训练提供了相对纯净且一致的数据基础。
在评测中,SoulX-FlashHead 在 HDTF 与 VFHQ 等权威数据集上展现了稳定表现。在高清视频评测中,Pro 版本以 8.31 的 FID 和 103.14 的 FVD 成绩取得领先,画面细腻度超过部分参数规模更大的模型;在复杂真实场景测试中,其 Sync-C 得分达到 5.60,口型同步表现明显提升。同时,Lite 版本在单张 RTX 4090 上实现 96FPS 的吞吐能力,远高于实时基准帧率,推理效率在同类模型中具备显著优势。

此次发布的SoulX-FlashHead 展示了Soul App在实时数字人领域的工程能力与研究深度,也为相关应用的规模化落地提供了可参考的技术范式。
相关文章
- 聚焦情绪连接,Soul App 创始人团队探索社交新路径
- Soul 创始人张璐团队完善AI治理机制,多维度守护社交生态
- Soul 创始人张璐团队推动AI社交治理升级,筑牢社交安全屏障
- Soul App 创始人团队披露生态治理成果,AI治理拦截违规内容477万条
- Soul App 创始人团队公布Q1生态安全成果:AI赋能清朗社交环境建设
- 东方财经专访Soul创始人张璐团队:近十年深耕,AI让社交回归真实连接
- Soul App发布SoulX-LiveAct开源模型,优化实时数字人生成技术
- Soul App发布开源模型SoulX-LiveAct,解决数字人长视频生成难题
- Soul App开源SoulX-Duplug模块,探索更自然的全双工语音交互路径
- Soul App联合高校开源SoulX-Duplug,推动全双工语音对话能力落地
- Soul App发布年轻人五一出行图鉴,洞察Z世代假期出行偏好
- 五一出行新风向|Soul App读懂Z世代出行选择逻辑
- 从线上到线下,Soul App以“情绪酒馆”丰富社交体验
- Soul App开源SoulX-FlashHead,让实时数字人技术从机房走向个人工作站
- Soul App开源SoulX-FlashHead,轻量化模型推动实时数字人技术迈向消费级终端
- Soul App联名DASH LAND活动开启,探索社交真实感与边界感
人工智能企业
更多>>人工智能硬件
更多>>- 续航流畅实力之选!一加 Turbo 6X 系列国补到手价 1274.15 元起
- 期末考倒计时 快来用三星Galaxy Tab S11系列提升自己的“题商”
- 海柔闪攀机器人双深位升级方案中国首秀!为超密存储和更高效率护航
- 技嘉于 COMPUTEX 2026 缔造 DDR5 世界纪录 勇夺10项全球超频冠军
- 上海智位机器人(DFRobot) 发布 seeMote Cap 与 seeMote Cube,帮助 Apple Vision Pro 开发者把真实工具带入 visionOS 应用
- 源自老牌科研院所积淀,默克蒂森全系列传感器与工控仪表赋能工业智造
- From AI, For AI:艾利特如何让机器人成为AI产业的“关键推动者”?
- 地表最强风冷,ROG玩家国度 枪神10 超竞版系列游戏本开售
人工智能产业
更多>>人工智能技术
更多>>- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力









