谷歌宣布开源Android语音识别转录工具Live Transcribe的语音引擎
2019-08-19 18:08:53AI云资讯813
8月18日,谷歌宣布开源Android语音识别转录工具Live Transcribe的语音引擎。

这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟、断网等问题导致的沟通障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国或是与新朋友见面,Live Transcribe都可以帮助你进行沟通。
交流时可以实时畅通(只要有网络)交流时可以实时畅通(只要有网络)
谷歌于今年2月发布了Live Transcribe。该工具使用机器学习算法将音频转换为实时字幕,与Android即将推出的Live Caption功能不同,Live Transcribe是一种全屏体验,使用智能手机的麦克风(或外接麦克风),并依赖于Google Cloud Speech API。Live Transcribe可以用70多种语言和方言标题实时口语。另一个主要区别是Live Transcribe可在18亿台Android设备上使用(当Live Caption在今年晚些时候推出时,它只适用于部分Android Q设备)。
在云上工作
谷歌的Cloud Speech API目前不支持发送无限长的音频流。此外,依赖云意味着网络连接、数据成本和延迟方面都有潜在问题。
结果,语音引擎在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新开始会话并且每当语音中检测到暂停时关闭。在会话之间,语音引擎还在本地缓冲音频,然后在重新连接时发送它。因此,谷歌避免了截断的句子或单词,并减少了会话中丢失的文本量。
70多种语言和方言中挑选自己合适的70多种语言和方言中挑选自己合适的
为了降低带宽需求和成本,谷歌还评估了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码器)可以保持准确性,不会节省太多数据,并且具有明显的编解码器延迟。AMR-WB可以节省大量数据,但在嘈杂的环境中准确度较低。
与此同时,Opus允许数据速率比大多数音乐流媒体服务低许多倍,同时仍保留音频信号的重要细节。谷歌还会在长时间的静音期间使用语音检测来关闭网络连接。
总体而言,该团队能够实现“在不影响准确性的情况下,将数据使用量减少10倍”。
为了比Cloud Speech API更进一步减少延迟,Live Transcribe使用自定义Opus编码器。编码器恰好提高了比特率,使“延迟在视觉上无法区分发送未压缩的音频”。
相关文章
- 谷歌正式接管母公司Alphabet旗下机器人软件企业Intrinsic
- 谷歌云客户业务负责人重返微软,出任安全主管
- 谷歌年度营收首次突破4000亿美元
- 谷歌权威发布!2026 AI Agent智能体趋势,九科信息一文带你深入解读!
- 谷歌在Chrome浏览器中新增Gemini AI驱动的自动浏览功能
- 小水智能出席谷歌创业先锋闭门会 携手Gemini构建全球化儿童AI生态
- 苹果Siri搭载Gemini技术,或为谷歌创造高达50亿美元的价值
- 苹果用谷歌Gemini AI模型推动Siri重大升级
- 谷歌母公司Alphabet旗下Wing无人机提供送货服务的沃尔玛门店将新增150家
- OpenAI狂揽软银2800亿融资,谷歌/微美全息领衔AI军备竞赛重塑大模型格局
- 高通与谷歌深化合作 拓展骁龙数字底盘与Android系统融合生态
- 火山引擎中国第一、全球第三,Tokens调用量逼近谷歌!
- 谷歌发布Gemini 3 Flash加速AI搜索并增强图像生成能力
- 易海创腾受邀出席谷歌2026代理商大会,共话出海新生态
- 谷歌“打样”智能眼镜新范式,中国厂商凭供应链强势突围
- 谷歌将在AI模式下增加信息来源索引范围
人工智能企业
更多>>人工智能硬件
更多>>- 中国联通携手合作伙伴发布云智AI眼镜
- 忆联UH812a以极致存力破局大模型载入瓶颈,释放算力潜能
- 讯飞翻译机登陆MWC 2026,同传级沟通体验,多语种交流无压力
- 普恩志引领:2026半导体与高端制造前瞻——核心备件如何驱动产业革新与市场机遇
- 超旗舰降噪,殿堂级音质 索尼双芯超旗舰真无线降噪耳机WF-1000XM6正式发售
- 当AI学会“隐身”,手机才真正智能:三星Galaxy S26系列开启AI哲学的降维打击
- 全球首秀!讯飞AI眼镜亮相MWC,多模态同传大模型与极致轻量化设计 引领智能穿戴新风向
- 全球瞩目!荣耀携Robot Phone、Magic V6系列、荣耀MagicBook Pro 14 2026震撼亮相MWC 2026
人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









