谷歌人工智能技术 可将语音识别错误率降低29%
2019-02-26 14:49:59AI云资讯1529
近期,语音识别技术发展迅猛,像EdgeSpeechNet等最先进的模型能够达到97%的准确率,但即使是最好的系统偶尔也会被生僻字难倒。
为了解决这个问题,谷歌和加利福尼亚大学的科学家提出了一种方法,可以利用纯文本数据训练拼写校正模型。在预印本服务器Arxiv.org上发表的一篇论文《用于端到端语音识别的拼写校正模型》中,他们表示,在使用800字、960小时语言建模LibriSpeech数据集的实验中,他们的技术显示,相对于基准,单词错误率(WER)改善了18.6%。在某些情况下,它甚至可以减少29%的错误。

语音识别
他们写道:“目标是将一个接受了文本数据培训的模块纳入端到端框架,纠正系统所犯的错误,具体来说,我们的调查使用了不成对的数据,利用文本到语音(TTS)系统生成音频信号,这个过程类似于机器翻译中的反向翻译。”
正如论文作者所解释的那样,大多数自动语音识别(ASR)系统要训练三个组成部分:一个学习音频信号与构成语音的语言单位之间关系的声学模型,一个为单词序列分配概率的语言模型,以及一种用于对声学帧和识别的符号进行匹配的机制。所有这三者都使用一个神经网络和转录的音频-文本对,因此,当语言模型遇到语料库中不经常出现的单词时,通常会出现性能下降。
然后,研究人员开始将上述拼写校正模型纳入ASR框架,一种将输入和输出句子解码为“词组”的子词单元的模型,他们使用纯文本数据,并利用文本到语音(TTS)系统生成的音频信号来训练LAS语音识别器,这是2017年Google Brain研究人员首次描述的端到端模型,然后创建一组TTS对,最后,由他们来“教导”拼写纠正器纠正识别器的错误。
为了验证这个模型,研究人员训练了一个语言模型,生成一个TTS数据集来训练LAS模型,并产生了错误假设以训练拼写校正模型,其中包含了来自LibriSpeech数据集的4000万个文本序列。他们发现,通过纠正来自LAS的条目,语音校正模型生成的扩展输出的错误率“显著”降低了。相关文章
- 谷歌正式接管母公司Alphabet旗下机器人软件企业Intrinsic
- 谷歌云客户业务负责人重返微软,出任安全主管
- 谷歌年度营收首次突破4000亿美元
- 谷歌权威发布!2026 AI Agent智能体趋势,九科信息一文带你深入解读!
- 谷歌在Chrome浏览器中新增Gemini AI驱动的自动浏览功能
- 小水智能出席谷歌创业先锋闭门会 携手Gemini构建全球化儿童AI生态
- 苹果Siri搭载Gemini技术,或为谷歌创造高达50亿美元的价值
- 苹果用谷歌Gemini AI模型推动Siri重大升级
- 谷歌母公司Alphabet旗下Wing无人机提供送货服务的沃尔玛门店将新增150家
- OpenAI狂揽软银2800亿融资,谷歌/微美全息领衔AI军备竞赛重塑大模型格局
- 高通与谷歌深化合作 拓展骁龙数字底盘与Android系统融合生态
- 火山引擎中国第一、全球第三,Tokens调用量逼近谷歌!
- 谷歌发布Gemini 3 Flash加速AI搜索并增强图像生成能力
- 易海创腾受邀出席谷歌2026代理商大会,共话出海新生态
- 谷歌“打样”智能眼镜新范式,中国厂商凭供应链强势突围
- 谷歌将在AI模式下增加信息来源索引范围
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









