豆包·同声传译模型2.0来了：3s延迟，实时声音复刻-AI云资讯

7月24日，火山引擎正式发布豆包·同声传译模型 Seed LiveInterpret 2.0，现已全量上线火山方舟平台。只需开口说话，你的“同款”声音就能同时开口说外语；演讲过程中，双语字幕与你的声音同步生成。

豆包·同声传译模型2.0是首个延迟&准确率接近人类水平的产品级中英语音同传系统，在中英同传翻译质量达到业界 SOTA 的同时，实现了极低的语音延迟水平和“0样本声音复刻”。这意味着，国际会议、跨境谈判等场景的实时交互体验将得以大幅提升，跨语言交流再也不怕生硬！

豆包·同声传译模型2.0像一位思维超敏捷的“同传专家”，基于端到端理解和生成框架，面向中英文，可实时接收多人语音输入，并在“听”的过程中同步理解、复刻声音，并输出语音和译文，以极低延迟实现高质量语音翻译，真正实现了“边听边说”。相比传统机器同传系统，豆包·同声传译模型2.0具备以下优势：

极低的语音延迟，沟通无断点：采用全双工语音理解生成框架，翻译延迟可低至2-3秒，较传统机器同传系统降低超60%，实现了真正的“边听边说”翻译。

0样本声音复刻，音色无缝跨越：无需提前录制，一边说话一边采样，即可实现“0样本”声音复刻，让同一个人同音色开口说外语，给现场的听众更还原更沉浸的体验。

智能平衡节奏，对话超自然：可根据语音清晰度、流畅度、复杂程度，调整输出节奏，并适配不同语言特性。面对超长信息，依然能保证传译语音节奏的自然流畅。

近期，豆包·同声传译模型已在多个权威国际会议中应用。在2025中关村论坛年会上，为多场重量级会议提供顶流 AI 同传服务，助力中外学者无缝畅聊，获央视点赞！在2025全球数字经济大会上，同样实现了外籍嘉宾发言的同步音色复刻翻译，参会者无需戴耳机，看屏幕字幕就能轻松 get 内容，实现“低延迟、高准确、听得懂”。

除了大型国际会议，豆包·同声传译模型还可以在更多生活场景发挥价值。例如，TikTok 主播用母语直播时，实时将内容翻译成外语并复刻主播声音，让外国观众听懂并信任，加速生意达成；在出境旅游方面将作为“随行翻译”，通过豆包实时翻译导游所讲内容，让语音沟通不再阻碍探索世界的脚步；帮助记者快速准确获取外文资讯与采访内容，辅助写稿，提升新闻时效性与准确性。

目前，豆包·同声传译模型 Seed LiveInterpret 2.0已在火山方舟开放使用，并即将在8月上线 Ola Friend 耳机，为用户带来更加灵活的使用方式和体验。

更多详细信息和功能将在7月30日的火山引擎 FORCE Link AI 创新巡展·厦门站公布，敬请期待！

豆包·同声传译模型2.0来了：3s延迟，实时声音复刻

相关文章

AI企业

AI硬件

AI产业

AI技术