谷歌开源AI能区分声音 准确率达92%
2018-11-14 18:29:17AI云资讯954
据VentureBeat报道,在语音嘈杂的环境中,要想分辨出有几个人讲话、在什么时间讲话,对于机器来说非常困难。但谷歌人工智能(AI)研究部门在语音识别方面取得了新进展,能以92%的准确率识别出每个人声音的专属模式。
谷歌AI研究部门在最新名为《Fully Supervised Speaker Diarization》的论文和相关博客文章中,研究人员描述了一种新的AI系统,它“能以一种更有效的方式识别声音”。
图1:谷歌智能音箱GoogleHome
这套系统涉及到Speaker diarization任务,即需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。强大的AI系统必须能够将新的演讲者发音与它以前从未遇到过的语音片段关联起来。
这篇论文的作者声称,核心算法已经可在Github上的开源软件中可用,它实现了一个在线二值化错误率(DER),在NIST SRE 2000 CALLHOME基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法DER为8.8%。
谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始,该实例不断更新给定新嵌入的RNN状态,使系统能够学习发言者共享的高级知识。
研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。我们的系统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。”
在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模,这样整个Speaker diarization系统就可以进行端到端训练。
相关文章
- 谷歌发布新一代大模型Gemini 3,AI搜索能力显著增强
- 谷歌利用新AI模型升级天气预报功能
- 芯原与谷歌联合推出开源Coral NPU IP
- 苹果人工智能服务计划采用定制版谷歌Gemini技术
- 谷歌推出AI虚拟试鞋功能,可即刻预览上脚效果
- 谷歌DeepMind的新型AI模型可通过网络搜索帮助机器人完成任务
- 谷歌新款Windows桌面应用为PC端带来类苹果Spotlight搜索栏
- 谷歌Waymo获准在旧金山提供机场接送服务
- 谷歌公布Gemini使用权限
- 苹果为Siri开发的AI搜索工具或将利用谷歌的Gemini AI模型来汇总网络信息
- 谷歌已完成AI眼镜开发,或由HTC代工量产
- 告别短信验证码:谷歌测试二维码验证技术,让短信更安全
- 苹果与谷歌洽谈使用Gemini AI模型改造Siri
- 谷歌Gemini人工智能推出全新引导学习模式
- 谷歌搜索的AI模式升级,新增作业识别功能
- 谷歌CEO桑达尔·皮查伊表示,人工智能对谷歌每个领域的业务都产生了积极影响









