Soul App发布开源模型SoulX-LiveAct,解决数字人长视频生成难题
2026-05-08 16:50:26AI云资讯1570
随着数字人技术在直播、播客和实时互动场景中的应用不断扩大,行业对数字人长时稳定生成的需求日益突出。近期,Soul App AI团队(Soul AI Lab)正式对外发布开源模型SoulX-LiveAct。通过引入Neighbor Forcing与ConvKV Memory等机制,SoulX-LiveAct在自回归扩散框架下完成优化,使流式视频生成从“可运行”迈向“可持续稳定运行”,为行业提供了一种更具可行性的技术路径。
在实际落地的过程中,视频生成时长一旦延伸到分钟乃至更长时间,往往会出现身份漂移、细节缺失、画面闪烁等问题,同时推理成本也会随时间增加。针对上述问题,Soul App AI团队在机制设计上进行了系统优化,旨在解决长时生成过程中稳定性与效率的双重挑战。

在核心能力方面,SoulX-LiveAct首先实现了显存使用的稳定控制。传统自回归扩散模型依赖KVcache记录历史信息,随着视频时长增长,缓存规模不断扩大,容易导致资源压力上升。该模型通过改造条件传播方式,并结合记忆压缩机制,使历史信息在被有效保留的同时不再线性膨胀,从而支持更长时间的连续生成。Soul App AI团队这一设计为小时级甚至更长时长的实时生成提供了基础条件。
在实时性能方面,SoulX-LiveAct在512×512分辨率下,仅需2张H100或H200显卡即可实现20FPS的流式推理,端到端延迟约为0.94秒,单帧计算成本控制在27.2 TFLOPs。相比传统方案,其在保证生成质量的同时降低了算力消耗,使得模型更接近实际部署需求,也为在线应用提供了更具可行性的成本结构。
在技术原理方面,SoulX-LiveAct基于AR Diffusion范式,通过分块自回归生成实现流式推理。Neighbor Forcing机制在同一扩散步内传递相邻帧的latent信息,使上下文处于一致的噪声语义空间,从而减少训练与推理之间的不一致问题。与此同时,ConvKV Memory通过“短期窗口 + 长期压缩”的结合,将历史信息压缩为固定长度表示,使显存占用保持稳定。配合RoPE Reset进行位置编码对齐,有效缓解长序列中的位置漂移现象。

在训练策略上,Soul App AI团队强调与推理过程的一致性。训练数据以连续帧块形式组织,使模型在训练阶段就接触到长时误差积累与修正过程,从而提升其在实际运行中的稳定性。同时,模型在训练中引入与推理一致的记忆压缩方式,使其能够在压缩信息条件下仍保持身份与细节的一致表达。这种“面向长时场景”的训练方法,有助于减少实际部署中的性能波动。
在性能评估方面,SoulX-LiveAct在HDTF与EMTD数据集上均表现出较为均衡的结果。在HDTF测试中,模型在口型同步指标上达到9.40的Sync-C与6.76的Sync-D,同时在分布相似性方面取得10.05 FID与69.43 FVD,并在VBench评测中获得97.6的Temporal Quality和63.0的Image Quality,VBench-2.0的Human Fidelity达到99.9。在EMTD数据集上,模型同样保持同步表现领先(8.61 Sync-C / 7.29 Sync-D),并且在VBench上的Temporal Quality与Image Quality指标分别达到97.3与65.7,Human Fidelity为98.9。这些结果体现出其在长时序稳定性与人体一致性方面的综合能力。

基于上述能力,SoulX-LiveAct可应用于多种需要长时间稳定输出的场景,例如数字人直播、AI教育、智能客服及虚拟互动环境等。近年来,Soul App AI团队持续推进实时数字人方向的技术演进,先后开源了SoulX-FlashTalk与SoulX-FlashHead等模型,分别在低延时、高帧率与轻量化等方面实现突破。与此同时,团队还在语音合成与交互模块方面推出SoulX-Podcast、SoulX-Singer及SoulX-Duplug等方案,逐步完善多模态实时交互技术体系。
Soul App发布的SoulX-LiveAct在长时稳定生成、实时推理效率与工程可落地性之间建立了一种新的平衡路径。通过对关键机制的重构与训练方式的调整,模型在实际应用场景中展现出更稳定的表现,也为实时数字人技术的进一步发展提供了参考方向。
相关文章
- Soul App开源SoulX-Duplug模块,探索更自然的全双工语音交互路径
- Soul App联合高校开源SoulX-Duplug,推动全双工语音对话能力落地
- Soul App发布年轻人五一出行图鉴,洞察Z世代假期出行偏好
- 五一出行新风向|Soul App读懂Z世代出行选择逻辑
- 从线上到线下,Soul App以“情绪酒馆”丰富社交体验
- Soul App开源SoulX-FlashHead,让实时数字人技术从机房走向个人工作站
- Soul App开源SoulX-FlashHead,轻量化模型推动实时数字人技术迈向消费级终端
- Soul App联名DASH LAND活动开启,探索社交真实感与边界感
- Soul App发布《2025年度生态安全报告》,以科技与共治筑牢社交元宇宙防线
- Soul年度生态安全报告:技术赋能共治,护航社交元宇宙健康发展
- Soul App发布《2025年度生态安全报告》,展现社交元宇宙安全治理成果
- 筑牢Soul社交元宇宙安全底座,Soul App发布《2025年度生态安全报告》
- Soul App 2025年度生态安全报告:AI助力社交元宇宙安全建设
- Soul App社交元宇宙安全体系再升级:年度生态安全报告解读AI治理实践
- Z世代如何社交?Soul趋势报告解构社交元宇宙新范式
- Soul洞察社交元宇宙:年轻人的社交关系正在发生这些改变
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









