Soul App开源SoulX-Duplug模块，探索更自然的全双工语音交互路径-AI云资讯

近期，Soul App AI团队联合上海交通大学X-LANCE Lab与西北工业大学ASLP@NPU团队，共同开源全双工语音对话控制模块SoulX-Duplug，并同步推出评测基准SoulX-Duplug-Eval。该项目围绕实时语音交互中的关键控制问题展开，为完善现有语音系统提供了全新的实践路径。

当前主流语音对话系统多采用半双工模式运行，用户无法在系统回应过程中进行打断，系统也难以表达附和或短暂停顿等自然行为。相比之下，全双工语音对话系统允许系统在生成回复的同时持续接收用户输入，使交互过程更接近人与人之间的自然对话。然而，现有全双工方案往往将语言生成与交互控制紧密绑定在同一模型中，这种设计虽然简化了结构，但也带来了训练难度高、数据依赖强以及系统扩展性受限等问题。在工业实践中，常见的做法是通过语音活动检测（VAD）、语音识别（ASR）以及轮次检测等模块进行组合，但多模块级联也会引入响应延迟与信息割裂等问题。

在此背景下，SoulApp团队的设计SoulX-Duplug能在单一模型框架中同时完成语音活动检测、流式语音识别以及对话状态预测三项任务，通过统一建模减少模块之间的信息损耗。在持续音频输入的条件下，模型能够实时解析语音内容，并动态判断当前对话状态，从而支持更加流畅的全双工交互。

在具体实现上，SoulX-Duplug采用GLM-4-Voice speech tokenizer，以12.5Hz的频率提取离散语音token，并通过160毫秒的处理窗口进行流式交替生成。Soul App团队的这一设计使模型能够在较低延迟下完成语音识别与状态判断。与此同时，系统定义了五类核心状态token，包括用户静默、有效语音输入、附和行为、语义完成以及语义未完成等，对对话过程中的关键节点进行结构化描述，从而提升系统对复杂交互情境的理解能力。

在方法设计上，SoulX-Duplug引入文本引导的流式状态预测机制。与仅依赖声学特征的传统方法不同，该模块通过结合语音识别结果，使模型在判断语音活动的同时具备语义理解能力。在训练过程中，系统以交替预测的方式生成音频token、识别文本以及状态token，使语义信息直接参与对话控制判断。这种方式不仅提升了对用户意图的识别精度，也为实现语义感知的语音活动检测提供了技术路径。

围绕模型训练与部署，SoulX-Duplug采用三阶段训练策略，依次完成非流式语音识别预训练、流式场景适配以及对话状态预测微调。在实际推理阶段，系统支持接入外部高效语音识别模块，从而在保证性能的同时提升部署灵活性。这种“训练与推理解耦”的策略，使模块既具备端到端能力，又能够适配不同系统架构。

在性能验证方面，SoulApp研究团队基于SoulX-Duplug构建了完整的全双工语音对话系统，并在中英文双语的Full-Duplex-Bench基准上进行评测。该评测覆盖轮次切换、停顿处理、用户附和以及用户打断等多种关键场景。实验结果显示，系统在整体对话管理能力上表现稳定，在响应延迟方面同样具备优势，体现出该模块在复杂交互环境中的实用价值。

在实际部署条件下，SoulX-Duplug作为独立模块的平均延迟约为250毫秒，接近其理论延迟240毫秒，明显优于传统基于VAD方案约500毫秒的水平，也超过部分同类模块约343毫秒的表现。这一结果表明，在保证语义理解能力的前提下，该方案能够有效控制系统延迟，为实时语音交互提供更具可行性的技术路径。

通过开源SoulX-Duplug及其评测体系，Soul App将全双工语音对话中的关键控制能力进行模块化拆解，并以流式状态预测为核心实现路径，为行业提供了一种兼顾性能与扩展性的解决方案。

Soul App开源SoulX-Duplug模块，探索更自然的全双工语音交互路径

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术