百度语音交互持续迭代 打造端到端信号声学一体化建模等前沿技术
2020-09-16 12:36:38爱云资讯
9月15日,AI领域的行业盛会“百度世界2020”大会于线上隆重召开,一大波硬核技术袭来:百度创始人、董事长兼CEO李彦宏与总台央视主持人康辉“虚拟人”亮相、颠覆搜索形态的“度晓晓”、没有驾驶员的“全自动驾驶”、各行各业赋能案例……既有硬核技术,又有“接地气”的落地应用。
(百度世界2020央视新闻直播间)
在当天的百度大脑分论坛上,百度语音首席架构师贾磊重点讲解了百度端到端语音交互技术。他表示,百度语音交互技术持续迭代升级,已发展成为基于深度学习技术的端到端的语音识别和语音合成技术。在语音识别层面,百度推出端到端信号声学一体化建模的技术,语音合成方面,最新的Meitron和单人千面合成个性化技术亮相。同时交出了百度语音技术最新成绩单:日均调用量超过155亿次,广泛应用在移动端、智能家居、和语音IoT等场景,智能语音产业化成果丰硕。
(百度语音首席架构师贾磊)
会上,贾磊分别从语音识别和语音合成两个技术维度详解了百度语音技术的发展迭代和最新成果。在语音识别方面,百度语音识别技术持续创新,从2012年首推深度学习技术,到2019年在业内首先把注意力模型应用于在线语音识别,推出流式多级的截断注意力模型 SMLTA;再到如今全面进化为端到端的信号声学一体化建模技术,在助力百度自身业务发展的同时,更好地赋能多场景、多产业应用。
作为百度语音识别技术的最新成果,端到端的信号声学一体化建模技术很好地解决了传统数字信号处理和语音识别级联系统的各种问题,抛弃了各自学科的学科假设,通过端到端的建模,大幅提升了远场语音识别率。
据贾磊介绍,端到端的信号声学一体化建模技术由模型波束技术和模型AEC技术组成。前者进化为多分区融合的模型波束建模技术,在国际上由百度首次提出,较单分区技术进一步提升识别性能15%以上;后者是升级为基于双LOSS实值掩蔽的模型AEC技术,可以解决设备有非线性情况下的回波消除问题,使得设备即使在播放音乐的时候,也能够进行成功的打断和高精准的语音识别。
此外,贾磊还在会上介绍了百度今年推出的端侧全双工语音交互技术。据他介绍,百度端侧全双工语音交互技术将复杂的建模过程转化为3个端到端的深度学习过程,即信号声学一体化建模、声学语言一体化建模以及语义置信一体化建模。通过端到端的建模,该技术能够将整个复杂的端侧交互转变成若干个深度学习计算,使得依靠一颗AI芯片就能完成端侧的全双工语音交互,从而大幅度提升车载手机等语音交互性能,显著改善用户体验。
而在语音合成方面,百度自2013年启动语音合成研发,历经参数合成、拼接合成、深度学习语音合成和端到端的语音合成,到如今全新升级为包含个性化、多风格多角色、单人千面的语音合成系统,百度语音合成技术始终处于升级迭代中。
会上,贾磊依次介绍了百度语音合成技术的最新成果——个性化TTS,多风格、多角色,单人千面。个性化TTS是个性化定制的Meitron语音合成系统的最新演进,是基于子带分解和GAN_loss的端侧神经网络声码器,也是业内首个在手机端多人通用的端侧的基于神经计算的声码器。个性化TTS相较于传统的基于信号处理和参数的声码器,ABX提升可以达到65:35,其已应用于地图导航,目前每日的导航播报超过1亿次。
多风格、多角色的语音合成,则是针对娱乐内容产业(例如小说)中存在的多个角色交替、多种情感需求并存的播报需求而研发的新技术。此前,用单一音色播报缺乏表现力,播报语音和文字本身的角色情感不一致,用户长时间听感到单调疲倦。百度通过深度学习技术对小说文本进行分析,判断出角色、身份、情感,再借助多风格、多角色语音合成技术去合成小说中的声音,从而实现声音自然流畅、情感表现力丰富、用户体验优美的效果。
针对一个发音人需要用不同风格播报文本的应用场景,百度推出单人千面语音合成技术。该技术能够把说话人的语音、文本、风格、内容、音色都进行分离,在进行语音合成的时候自由组合,从而能够让一个发音人同时去播报新闻、小说、脱口秀、读书、诗歌等不同风格。
“百度智能语音交互的产业化成果丰硕,目前百度智能语音的日均调用量超过155亿次,广泛应用于移动端、智能家居、智能车载、智能服务以及语音IoT,极大地提高了中国社会的智能化程度。”贾磊表示。语音技术作为百度大脑的重要AI能力之一,不但应用于百度搜索、百度输入法、百度地图、小度音箱等百度系列产品,更通过百度大脑AI开放平台广泛赋能众多行业和场景的合作伙伴。未来,百度还将持续创新升级语音交互技术,推进语音技术应用落地,助力更多产业智能化转型升级。
- 百度CTO王海峰:智能体是重要发展方向,会带来更多应用爆发
- 标贝科技亮相Create 2024百度AI开发者大会
- 百度文库超前一步携手顶级国漫,探索AIGC应用垂类进化
- 百度大模型助推工业智能化应用,微美全息AIGC全面升级加速数字化转型进程
- 百度AI开发者大会为何只选跨越速运 科技实力+定制服务给答案
- 摄影界的ChatGPT来了!百度网盘推出AI摄影创意工具超能画布
- 刘强东“分身”直播首秀带火AI数字人直播 万兴科技百度等厂商受关注
- 百度何俊杰:智能体,创造AI原生未来
- 百度智能云新一代智能计算操作系统发布,定名万源
- 百度沈抖:传统云计算不再是主角,智能计算呼唤新一代“操作系统”
- 百度文库官宣「AI创作」体验官李雪琴,带来AI办公提效新范式
- 苹果携手百度共探AI合作新机遇,微美全息竞速开展AIGC应用构建竞争优势
- 软通动力荣获百度智能云“大模型创新突破奖“等荣誉
- 数势科技副总裁宋丽出席百度智能云GENERATE全球生态大会,共商大模型生态
- 为新质生产力“添柴加薪”,呼和浩特与百度共建人工智能基础数据产业基地
- 百度教育行业AIGC营销解决方案全新升级,为客户打造全场景“明星员工”