不识字也能翻译:谷歌AI直接用音频翻音频,不用先转文本
2019-04-17 11:08:57AI云资讯1382
在我们的世界里,谷歌翻译是这样的:
一直被调戏的翻译娘
在谷歌的世界里,谷歌翻译是这样的:
西语英语:你不问,就不会知道了
请注意,视频里的文字只是为了便于观赏,才存在的。
而AI在翻译语音的时候,不把西语的音频转成文本,也不生成任何英语的文本,直接产出了英文音频。和标答一字不差。
这是谷歌团队的最新成果,想法大胆而有效。
仿佛在双语环境里出生的小朋友,还没识字,就能把爸爸说的话翻译给妈妈。
怎么会不用看文本?
这个翻译模型,名字叫做S2ST(全称Speech-to-Speech Translation) 。
不看文本只靠听,背后的原理是把一种语音的声谱图(Spectrogram) ,映射到另一种语音的声谱图上。
那么,声谱图什么样?
下图就是 (西语) “你好么,嘿,我是威廉,你怎么样啊?”的声谱图。
横轴是时间,纵轴是Mel频率
然后是目标,英文的声谱图。
AI只要从大量的成对数据里,学懂英文和西语的声谱映射关系,就算不识别人类说的是什么字,依然能当上翻译员。
当然,一个完整的翻译模型,并没有上面说的这么简单,它由三个部分组成:
一是基于注意力的序列到序列 (seq2seq) 神经网络。就是下图的蓝色部分,它负责生成目标声谱图,这只是第一步,还不是音频;
二是一个声码器(Vocoder) 。下图的红色部分,它会把声谱图转换成时域波形 (Time-Domain Waveforms) ,这已经是带有时间顺序的正经声波了;
三是个可选的附加功能,原本说话人的编码器。绿色部分,经过它的加工,翻译出的英文,和原本的西语,听上去就像同一个人发出来的。
当然,蓝色部分还是主角。
里面的编码器 (左) ,是8层双向LSTM堆起来的;而解码器 (Spectrogram Decoder) ,团队说要选4-6层LSTM的,深一点效果比较好。
成功了
模型是用人类自发的对话 (比如打电话的语音) 端到端训练出来的,一起来看看成果吧。
第一题,短语。“克兰菲尔德大学的新员工”,翻译和标答一字不差。
原文:nuevos empleados de Cranfield University
标答:New hires at Cranfield University
第二题,句子。“看看这个国家上下,你看到了什么”,依然和标答一致。
原文:Por lo tanto, mirar alrededor del país y lo que ves.
标答:So, look around the country and whatdoyou see?
对手表现怎样?借助转换文本来翻译的AI,缺了个“do”字:
第三题,带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候,我照顾过他们也教过他们,有过一些这样的经历。”
原文:Tengo cierta experiencia en cuidar y ense?ar a mis primos cuando eran jóvenes.
标答:I’ve got some experience in looking after and teaching my cousins when they were young.
照顾(TakingCare of) 有缺失,其他部分对比标答是完整的。
再看对手,“照顾 (Care) ”和“教 (Teach) ”都用了动词原形,语法不是很严格:
肉眼看过之后,再让S2ST和先转换文本再翻译的AI对比一下BLEU分。
在“Conversational”大数据集上,S2ST的BLEU分比对手差了6分:42.7比48.7。
的确还有一些差距,但毕竟对手依靠了文本,算是开卷考了。
这样说来,直接跳过文本的想法,虽然听起来有些飘,但结果证明是可行的。
所以,谷歌团队说,大有可为啊。
相关文章
- 科大讯飞AI翻译亮相2025企业家博鳌论坛,助力全球智慧无缝交融
- 讯飞双屏翻译机2.0赋能南航建设西部门户枢纽,多语言服务架起空中丝路沟通桥梁
- 当AI翻译照进现实:时空壶田力一个科幻迷的创业故事
- 2025年度最佳TOP6 AI视频翻译工具:短剧翻译、跨境出海必备翻译神器
- 海外游实测:时空壶新T1 AI翻译机以端侧AI技术,破解无网沟通难题
- 讯飞发布AI翻译耳机:准确、快速、自然,让全球沟通无限
- 科大讯飞同传大模型再升级,上海、迪拜同发讯飞AI翻译耳机
- IDC发布中国AI翻译技术评估报告:科大讯飞8项评测全部第一,6项满分领跑行业
- 讯飞翻译SaaS平台正式发布:一站式翻译服务解决方案,破解跨境难题
- 苹果iOS 26正式版携全新液态玻璃设计推送:半透明图标、实时翻译与增强群聊功能
- 国庆出国游,时空壶新T1翻译机,首个端侧模型突破助力跨语言交流
- 当翻译失去网络,时空壶新T1翻译机开创首个离线模型赋能全球沟通新体验
- 商务洽谈现场:时空壶 W4Pro AI同传耳机如何以高精准翻译促成合作
- 传音手机本地化策略进击印度 破解小语种翻译与电力续航双困局
- 时空壶新T1翻译机:以端侧技术突破重新定义翻译设备标准
- 传音斩获WMT 2025国际机器翻译大赛四项冠军,加速构建全球多语言智能沟通体系









