Soul App开源SoulX-Duplug模块,探索更自然的全双工语音交互路径
2026-05-08 14:19:01AI云资讯1896
近期,Soul App AI团队联合上海交通大学X-LANCE Lab与西北工业大学ASLP@NPU团队,共同开源全双工语音对话控制模块SoulX-Duplug,并同步推出评测基准SoulX-Duplug-Eval。该项目围绕实时语音交互中的关键控制问题展开,为完善现有语音系统提供了全新的实践路径。

当前主流语音对话系统多采用半双工模式运行,用户无法在系统回应过程中进行打断,系统也难以表达附和或短暂停顿等自然行为。相比之下,全双工语音对话系统允许系统在生成回复的同时持续接收用户输入,使交互过程更接近人与人之间的自然对话。然而,现有全双工方案往往将语言生成与交互控制紧密绑定在同一模型中,这种设计虽然简化了结构,但也带来了训练难度高、数据依赖强以及系统扩展性受限等问题。在工业实践中,常见的做法是通过语音活动检测(VAD)、语音识别(ASR)以及轮次检测等模块进行组合,但多模块级联也会引入响应延迟与信息割裂等问题。
在此背景下,SoulApp团队的设计SoulX-Duplug能在单一模型框架中同时完成语音活动检测、流式语音识别以及对话状态预测三项任务,通过统一建模减少模块之间的信息损耗。在持续音频输入的条件下,模型能够实时解析语音内容,并动态判断当前对话状态,从而支持更加流畅的全双工交互。
在具体实现上,SoulX-Duplug采用GLM-4-Voice speech tokenizer,以12.5Hz的频率提取离散语音token,并通过160毫秒的处理窗口进行流式交替生成。Soul App团队的这一设计使模型能够在较低延迟下完成语音识别与状态判断。与此同时,系统定义了五类核心状态token,包括用户静默、有效语音输入、附和行为、语义完成以及语义未完成等,对对话过程中的关键节点进行结构化描述,从而提升系统对复杂交互情境的理解能力。

在方法设计上,SoulX-Duplug引入文本引导的流式状态预测机制。与仅依赖声学特征的传统方法不同,该模块通过结合语音识别结果,使模型在判断语音活动的同时具备语义理解能力。在训练过程中,系统以交替预测的方式生成音频token、识别文本以及状态token,使语义信息直接参与对话控制判断。这种方式不仅提升了对用户意图的识别精度,也为实现语义感知的语音活动检测提供了技术路径。
围绕模型训练与部署,SoulX-Duplug采用三阶段训练策略,依次完成非流式语音识别预训练、流式场景适配以及对话状态预测微调。在实际推理阶段,系统支持接入外部高效语音识别模块,从而在保证性能的同时提升部署灵活性。这种“训练与推理解耦”的策略,使模块既具备端到端能力,又能够适配不同系统架构。
在性能验证方面,SoulApp研究团队基于SoulX-Duplug构建了完整的全双工语音对话系统,并在中英文双语的Full-Duplex-Bench基准上进行评测。该评测覆盖轮次切换、停顿处理、用户附和以及用户打断等多种关键场景。实验结果显示,系统在整体对话管理能力上表现稳定,在响应延迟方面同样具备优势,体现出该模块在复杂交互环境中的实用价值。

在实际部署条件下,SoulX-Duplug作为独立模块的平均延迟约为250毫秒,接近其理论延迟240毫秒,明显优于传统基于VAD方案约500毫秒的水平,也超过部分同类模块约343毫秒的表现。这一结果表明,在保证语义理解能力的前提下,该方案能够有效控制系统延迟,为实时语音交互提供更具可行性的技术路径。
通过开源SoulX-Duplug及其评测体系,Soul App将全双工语音对话中的关键控制能力进行模块化拆解,并以流式状态预测为核心实现路径,为行业提供了一种兼顾性能与扩展性的解决方案。
相关文章
- Soul App联合高校开源SoulX-Duplug,推动全双工语音对话能力落地
- Soul App发布年轻人五一出行图鉴,洞察Z世代假期出行偏好
- 五一出行新风向|Soul App读懂Z世代出行选择逻辑
- 从线上到线下,Soul App以“情绪酒馆”丰富社交体验
- Soul App开源SoulX-FlashHead,让实时数字人技术从机房走向个人工作站
- Soul App开源SoulX-FlashHead,轻量化模型推动实时数字人技术迈向消费级终端
- Soul App联名DASH LAND活动开启,探索社交真实感与边界感
- Soul App发布《2025年度生态安全报告》,以科技与共治筑牢社交元宇宙防线
- Soul年度生态安全报告:技术赋能共治,护航社交元宇宙健康发展
- Soul App发布《2025年度生态安全报告》,展现社交元宇宙安全治理成果
- 筑牢Soul社交元宇宙安全底座,Soul App发布《2025年度生态安全报告》
- Soul App 2025年度生态安全报告:AI助力社交元宇宙安全建设
- Soul App社交元宇宙安全体系再升级:年度生态安全报告解读AI治理实践
- Z世代如何社交?Soul趋势报告解构社交元宇宙新范式
- Soul洞察社交元宇宙:年轻人的社交关系正在发生这些改变
- Soul App创始人张璐:00后女生最期待被理解而非被赞美
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









