谷歌开源AI能区分声音 准确率达92%
2018-11-14 18:29:17爱云资讯
据VentureBeat报道,在语音嘈杂的环境中,要想分辨出有几个人讲话、在什么时间讲话,对于机器来说非常困难。但谷歌人工智能(AI)研究部门在语音识别方面取得了新进展,能以92%的准确率识别出每个人声音的专属模式。
谷歌AI研究部门在最新名为《Fully Supervised Speaker Diarization》的论文和相关博客文章中,研究人员描述了一种新的AI系统,它“能以一种更有效的方式识别声音”。
图1:谷歌智能音箱GoogleHome
这套系统涉及到Speaker diarization任务,即需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。强大的AI系统必须能够将新的演讲者发音与它以前从未遇到过的语音片段关联起来。
这篇论文的作者声称,核心算法已经可在Github上的开源软件中可用,它实现了一个在线二值化错误率(DER),在NIST SRE 2000 CALLHOME基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法DER为8.8%。
谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始,该实例不断更新给定新嵌入的RNN状态,使系统能够学习发言者共享的高级知识。
研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。我们的系统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。”
在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模,这样整个Speaker diarization系统就可以进行端到端训练。
- 多模态成新“时尚” 谷歌OpenAI万兴科技等出奇招探索多模态能力及应用
- 谷歌将探索AI写作,小美AI城惊艳亮相:AI世界中挑战与机遇并存
- 妙鸭相机海外同款火了 万兴科技旗下“Pixpic”登陆谷歌商店
- 谷歌开发者大会带来升级版Starline,微美全息推进3D显示+全息技术引领新高潮
- TalentOrg携手谷歌、爱点击,共探全球化发展策略
- 谷歌翻译现支持翻译图片内文字
- 谷歌折叠手机Pixel Fold首次在街头被发现
- 中国版“ChatGPT”真的来了,百度、微软、谷歌谁能突围?
- 谷歌Pixel Fold最新外观细节曝光:内外屏参数变化 相机模组造型熟悉
- 传音与谷歌建立全球战略合作伙伴关系,共推新兴市场数字化发展
- Poly博诣多款产品获谷歌及微软认证 加持混合办公生态
- 谷歌明年推8Gbps宽带服务 上行也不限速
- 谷歌Pixel 6a全球定价公布 新晋中端机7月21日开始发货
- Android 13亮相谷歌I/O大会,OPPO首批推出开发者预览版
- 谷歌收购数据科学公司Kaggle增强机器学习和AI业务
- 谷歌 Pixel 6 拆解,FD-SOI首次被用于5G毫米波