方言也能听懂?百度AI展现神级语音技术
2018-07-05 18:37:27AI云资讯1283
7月4日、5日,百度AI开发者大会火热召开,会上百度向开发者们展示了百度AI能力的核心——百度大脑3.0。
百度大脑3.0的核心是“多模态深度语义理解”,它不仅能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。
在下午的百度大脑分论坛上,百度展示了它在语音语义一体化、视觉语义化等技术上的新突破。
“小度小度,我要看电影~”
“小度小度,徐峥的老婆是谁~”
“小度小度,声音调大点~”
……
如果是识别出了几段普通话,可能并不让人惊奇,但这段指令却是一段四川方言,而搭载了DuerOS的电视不仅识别出了口令,并且和人类进行了流畅互动,这就让在场的开发者们惊奇不已了。而在这流畅交互的背后,就是百度大脑3.0在语音技术上的体现。

据百度高级副总裁、AI技术平台体系总负责人王海峰介绍,百度大脑3.0的核心是“多模态深度语义理解”,“多模态深度语义理解”是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。
在语音技术上,百度取得了三项重大突破:百度高噪声环境Hand-free语音识别准确率已提升了10个百分点;语音语义一体化技术使得远场语音识别准确率提升了10个百分点;在语音合成方面,WaveNet+拼接的情感语音合成技术,使得流畅度和自然度也大幅提升。
语音识别的准确率是语音技术的基础,针对远场交互中高频Query的识别率问题,百度对语义识别的技术和框架进行了重新设计,专门为高频Query建构解码空间,且对高频Query和普通Query两套架构并行解码。在动态解码阶段,百度采用了Ranking综合排序,以保证高频Query的高权重。百度基于高频Query的识别架构,目前能够将高频Query的准确性提升10个点,并能保证普通Query的识别率不降。
多语种混合Query的识别是语音技术中攻克的难点,百度发布的基于DeepPeak2采用的多语种音素组合建模,突破了以音素为基本建模单元的传统,对中英文统一建模,不仅能将建模单元减少至一千多、将解码速度加快、解码效率增高,且因为模型对训练数据极高的多样性和包容性,模型能积累更多的训练数据,进而大大提高对中英文混合Query的识别准确率。目前,基于中文Deep Peak2的多语种音素组合模型已在百度多个产品上线,相对错误率比业界最好竞品降低了20%。
技术质量与成本最优化是技术追求的目标,百度创新的WaveNet+拼接技术不仅保证了合成声音的情感,保证了输出声音的稳定性,同时降低了需要使用的数据和成本,全新的语音合成技术的经济适用性,覆盖了更多的聊天场景,也让该技术能得到大规模的工业应用。
相关文章
- 百度智能云与帕西尼达成战略合作 共同推动具身智能产业规模化落地
- 百度智能云:加大三方面投入 解决具身智能产业硬问题
- 百度沈抖:自我进化,开启超级个体黄金时代
- 百度一镜升级,数字人进入“全场景+全球化”时代
- 百度智能云升级百度一见视觉智能体平台:内置1000+专业视觉Skills,可自主进化
- 百度智能云发起智慧养老产业联盟,8家企业首批加入
- 百度Create2026:AI Agent走进家庭,小度给出落地样本
- L4级自动驾驶车辆驶入中国农业大学 百度Apollo星火计划再落一子
- 百度百科20周年沙龙致敬百万UGC用户:让3000万+词条成为时代的知识方舟
- AI生万象,灵感疯长——百度百家号AI创作者漫谈大会圆满落幕
- 2026百度创作者大会:AI引擎赋能创作 共生共筑新生态
- 领跑中国乘用车NOA辅助驾驶地图市场份额 百度地图实力亮相2026北京车展
- 百度百科“繁星计划”再加码,投入2000万基金激励权威内容建设
- 行业首发!鸿蒙版雅迪智行App深度集成百度地图SDK,上线投屏导航,实现“抬头骑行,眼不离路”
- 百度APP用户数据再攀升:主动日活用户同比增长1.6倍、创作者规模同比增长近3成
- 行业首家!百度地图×雅迪首发支持鸿蒙投屏导航,两轮车智慧出行迈入“鸿蒙时代”
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









