出门问问3篇论文获自然语言处理和人工智能国际会议录用发表
2022-08-02 10:26:36AI云资讯1628
7月15-17日,2022年第三届自然语言处理与人工智能国际会议(NLPAI 2022)于成都四川大学举办。继出门问问语音情感合成论文入选全球语音领域顶级会议 INTERSPEECH 2022后,出门问问语音团队的3篇论文再次被NLPAI录用发表。
NLPAI会议旨在为世界各地的研究学者,工程师和科学家提供一个自然语言处理与人工智能等相关领域的技术进步展示和研究成果发布交流的国际会议平台,每年都吸引数千名学者专家进行交流,探讨学术观点,碰撞最新研究成果。会议所有被录用的论文将发表在 Conference Proceedings 上,将被 Ei Compendex、Scopus 检索,并提交 CPCI 检索。

在群星璀璨的技术盛宴里,出门问问语音团队在语音技术领域贡献了哪些精彩亮点?
1、《Prosody Prediction With Discriminative Representation Method》
《基于判别表示的韵律预测》
作者: Jipeng Zhang, Askar Hamdulla, Xiaoqin Feng, Xipeng Yang, Yunlin Chen
韵律是影响文本到语音(TTS)的自然性和可理解性的关键因素,同时也面临着巨大的挑战,包括:
1. 统一标注数据集的获取,需要依赖于严格的专家经验。
2. 基于传统概率统计方法,严重依赖于特征工程等文本处理效果。
针对上述问题,论文中提出了一种基于独立韵律数据的预测系统。

这个新方法具有以下优点:
1.减少了对于联合数据的依赖性,灵活支持不同韵律等级的模型训练。
2.提出了一种通用判别表示方法 Layer Look Up Table(LLUT),建模不同的韵律等级,引入多任务训练。
3.基于预训练方法对文本语义建模,无需任何特征工程。
2、《Research of Pitch Controllability Based on LPCNet》
《基于LPCNet的语调可控性研究》
作者:Wenyu Gao, Askar Hamdulla, Xipeng Yang, Yunlin Chen
随着语音合成技术在大部分场景的使用,修改音频的音调有着广泛的用途。目前大部分音调可控是通过使用单独的神经网络生成输入参数实现,但这个方法需要训练多个神经网络,并且在没有说话人自适应的情况下不能显示可控。针对这一问题,提出了一种基于LPCNet声码器进行音调显示控制的方法。首先在训练阶段,通过优化训练特征来优化声码器模型合成效果和对控制音调的鲁棒性;其次在推理阶段输入控制曲线对基频进行调节,然后利用声码器LPCNet将声学特征推理为波形点;最后合成音频。实验结果表明,所提方法能够灵活控制音调,合成的声音音质也有所提升。

训练阶段

测试阶段
这个新方法具有以下优点:
1.能够灵活控制音调,声音音质也有所提升;
2.在控制阈值范围内,调节控制参数并没有使得音质有明显下降;
3.后续尝试在声学模型生产声学特征过程中引入基频控制,这样结合声学模型的decoder模型,能够生成更加鲁棒的音频。
3、《End-to-End Multi-Speaker Speech Synthesis with Controllable Stress》
《基于端到端的跨说话人重音可控语音合成》
作者:Ting Liang, Askar Hamdulla, Hao Yin, Yunlin Chen
目前,端到端语音合成在某些领域已经达到了真人水平,如语音助手、新闻播报、智能导航等。然而,人类表达信息通常需要突出重点,在语音中适时添加重音(Stress)可以起到强调作用,更好的表述观点。目前大部分语音合成研究都没有对重音特征进行建模,因此合成的语音无法突出重点,语调单一或者重音的位置不可控。这样的语音缺乏表现力。该文提出了一种基于端到端的跨说话人重音可控语音合成方法,并且无需对目标说话人的重音特征进行标注,即可合成重音可控的目标说话人语音。

这个方法具有以下优点:
1.实现对合成语音的重音三级可控(重读/拖音/重读拖音);
2.只需少量重音标注数据,即可将重音功能迁移至任意无重音数据的目标发音人;
3.合成语音更加自然、表现力更加丰富。
聆听用户声音 探索更贴近用户的语音技术
此次3篇论文入选自然语言处理与人工智能国际会议(NLPAI 2022),是出门问问全栈和硬核技术的再次进展,也是公司继获评吴文俊人工智能科技进步奖、国家高新技术企业、北京市专精特新中小企业,论文入选全球语音技术顶会 INTERSPEECH 2022等技术成就之后,在前沿技术上的又一次新突破。
近年来,出门问问不断将日趋成熟的语音技术,逐步落地在离用户更近的产品和服务上,聆听用户声音,尊重用户情感,深度挖掘用户的潜在需求。目前,出门问问团队已将重读、拖音、韵律及语调可控等功能应用于AI配音神器「魔音工坊」中,从声音转换到重读、拖音,众多首发的AI语音技术实现,让用户体验到更富有情感、媲美真人的AI配音。
人工智能底层技术的深厚积累,将不断促进出门问问人工智能系统的“智力”提升,使之更好地应用于智慧出行、智慧生活等各行业,为用户缔造出色的智能体验。
相关文章
- 出门问问携TicNote亮相全球共享发展行动论坛
- 出门问问首发AI原生协作平台CodeBanana,以《超级组织》重写AI时代的进化法则
- 出门问问向AI原生组织转型,Token消耗成本占人力15%
- 出门问问2025年亏损收窄90.5%,AI驱动组织效能量级跃迁
- 出门问问发布全球首款4G AI录音耳机 TicNote Pods,联合Alpha派推出金融投研版“涨听”
- 超越记录,打造协作新生态|出门问问TicNote系列新品亮相CES 2026
- 驱动AI原生组织进化!出门问问发布TicNote Cloud平台及系列AI硬件
- CES 2026|出门问问发布TicNote系列新品,联动TicNote Cloud打造团队协作新生态
- 搭载全新升级Shadow AI 2.0,出门问问打造TicNote硬件矩阵与协作生态
- 出门问问全新TicNote生态即将亮相CES,驱动AI原生组织发展
- 出门问问重磅发布TicNote Pods,“4G联网+Shadow AI”重塑耳机体验
- 出门问问发布TicNote Lite青春版,打造年轻人的AI思考伙伴
- 出门问问重磅发布TicNote Color系列,Shadow AI 2.0全面升级
- 穿越周期:出门问问“软硬结合”战略步入收获期,中期亏损近乎清零
- 出门问问TicNote销量居录音同品类热卖榜第一名
- 当AI学会主动思考:WAIC现场,出门问问TicNote让记录“活”起来
人工智能企业
更多>>人工智能硬件
更多>>- 一飞智控携全空间解决方案及三款新品,亮相2026世界无人机大会
- 续航超强的微星全新尊爵系列,重塑轻薄本的超凡全能体验
- BOE(京东方)全球首发原生千帧FHD 护眼电竞显示器 真千帧硬实力引领电竞高刷新时代
- Neousys宸曜发布星宸系列强固嵌入式工控机,赋能工业智能升级
- BOE(京东方)OLED技术赋能联想YOGA Air 14 Ultra 定义超轻薄AI PC新标杆
- iQOO 15T正式发布:天玑9500 Monster版加持 全能体验无短板
- 从“+AI”到“AI+”:天禧AI 4.0加持,联想AI主机领衔L3级终端震撼登场
- 拾年匠音,声来不凡,致敬1000X系列十周年 索尼发布1000X十周年典藏版头戴降噪耳机
人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









