Facebook的人工智能只是创造了翻译的新纪录及其重要性!

2018-09-03 15:48:52爱云资讯


2006年2月21日星期二,意大利都灵埃及博物馆的法官和首相Gemenefherbek曾在石棺上看过象形文字。

Facebook的研究使得在没有很多翻译示例的情况下更容易在语言之间进行翻译。例如,从乌尔都语到英语。

神经机器翻译(NMT)是关注使用AI在英语和法语等任何语言之间进行翻译的领域。2015年,蒙特利尔学习算法研究所的研究人员开发了新的人工智能技术[1],它允许机器生成的翻译最终发挥作用。几乎在一夜之间,谷歌翻译等系统变得更好。

虽然这种飞跃很重要,但它仍然需要两种语言的句子对,例如,“我喜欢吃”(英语)和“我gusta comer”(西班牙语)。对于像乌尔都语这样的语言之间的翻译而没有很多这样的对,翻译系统失败了。从那时起,研究人员一直在构建可以在没有句子配对的情况下进行翻译的系统,即:无监督神经机器翻译(UNMT)。

在过去的一年里,Facebook,纽约大学,巴斯克大学和索邦大学的研究人员取得了显着的进步,最终使系统翻译成不知道“房子”在西班牙语中意为“casa”。

就在几天前,Facebook人工智能研究(FAIR)发表了一篇论文[2],显示了一个戏剧性的改进,允许从乌尔都语到英语的翻译。“为了对进步水平有所了解,1 BLEU点的改进(判断MT准确度的常用指标)被认为是该领域的一项了不起的成就;我们的方法显示了超过10个BLEU点的改进。”

为什么这很重要

洛桑,瑞士 - 2016年5月27日:瑞士洛桑(EPFL)瑞士联邦理工学院神经科学实验室的测试人员戴着脑机接口(BCI)罩,将大脑活动转化为信号控制一台电脑。BCI技术旨在让行动不便的人增加其独立性或使完全瘫痪的患者能够与他们的环境进行交流。在这个特定的实验室会议中,那个截瘫并坐在轮椅上的测试人员正在训练通过电脑游戏驾驶他的想法。该游戏是“Cybathlon”的学科之一,这是一项残疾赛车飞行员锦标赛,将于2016年10月在瑞士克洛滕举行。EPFL神经科学家团队对获胜感到乐观!

标记数据通常是AI系统中最大的瓶颈。这意味着我们必须向人类付费才能进行人工翻译,这可能非常耗时且昂贵。最近的论文重点介绍的进步可以提供新的培训系统方法,而无需生成这些标记数据。一些例子可能是,确定照片中是否有猫没有任何标记为“猫”的照片或者系统未被告知正确答案的问答系统。

从社会科学的角度来看,它可以让我们翻译用丢失的语言编写的文件,或者允许实时翻译稀有语言的新设备,例如斯瓦希里语和白俄罗斯语。

我们还可以想象抽象这个想法在任意域之间进行转换。例如,在给定类似新闻事件的情况下,将大脑中的神经活动与屏幕上的视频或给定某些新闻事件的股票的表现“转换”为另一股票的预测性能。

怎么运行的

字节对编码WILLIAM FALCON

在这里,我解释了系统如何工作,而没有深入了解数学和AI原理的细节。

Facebook的系统识别并组合了之前研究中开发的3个核心组件:

字节对编码[3]:它们不是给系统提供整个单词,而是给系统提供部分单词。例如,单词“hello”可以作为4个单词部分给出“he”“l”“l”“o”。这意味着我们可以学习“他”这个词的翻译,而系统没有看过“他”这个词。语言模型:他们训练其他神经网络学习生成语言中“听起来不错”的句子。例如,这个神经网络可能会将句子“你好吗”改为“你好吗”。反向翻译[4]:这是另一个神经网络学习向后翻译的技巧。例如,如果你想从西班牙语翻译成英语,我们在这里教一个神经网络,从英语翻译成西班牙语,用它来生成合成数据,从而增加我们拥有的数据量。

系统的其余部分通过两种方法结合上述技术,基于神经网络的系统(NMT)[1]和基于短语的系统(PBSMT)[5]。虽然任何一种方法都可以提高翻译质

学习关闭一杯

学习在一个图像中移动像素以生成第二个图像的系统的插图。匹配概率分布的类比。威廉猎鹰

本文中使用的PBSMT版本是之前在FAIR开发的[5]。该系统学习每种语言中短语的概率分布,并教导另一个系统旋转第二组中的数据点以匹配第一组中的数据点。

示例:想象一下有两个图像,一个是杯子和一个盖子彼此相邻,另一个是盖子在杯子上。该系统将学习如何在没有盖子的情况下在图像周围移动像素以生成带盖的图像。

这项研究的好部分

FAIR的研究人员在使这项工作易于获取方面做得非常出色。

这篇好文章对这项研究有一点技术性的描述。Facebook还开放免费访问代码,允许任何人构建这些系统。最后,作者在Ablation研究中做得很好,该研究考察了去除系统中每个组件以查看最终结果的效果。这在研究论文中经常被忽略,但作为研究人员提供了关于新系统的哪些部分是这些改进的来源的很好的见解。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023