Google的AI使用更少的计算和数据来训练最先进的语言模型-AI云资讯

在最近的一项研究中，Google的研究人员提出了“有效学习一种对令牌替换进行准确分类的编码器”(ELECTRA)，这是一种AI语言训练技术，在具有相同数量的计算资源的情况下，其性能优于现有方法。在发布数月后的这一周，合著者发布了TensorFlow的代码库(和预训练的模型)，为强大的模型奠定了基础，这些模型能够以最先进的精度执行语言任务。这些模型可能有一天会进入客户服务聊天机器人，或者可能被合并到为执行团队总结报告的工具中。

预训练方法通常分为两类：语言模型(例如OpenAI的GPT)，该模型从左到右处理输入文本并根据给定的上下文预测下一个单词;以及屏蔽语言模型(例如Google的BERT和ALBERT以及Facebook的语言模型)RoBERTa)，它可以预测输入中被掩盖的少量单词的身份。屏蔽语言模型的优势在于，它们可以“看到”要预测的令牌(即单词)左右两侧的文本，但是它们的预测仅限于输入令牌的一小部分，从而减少了学习量从每个句子。

ELECTRA的秘密秘诀是一项称为替换令牌检测的预训练任务，它可以在从所有输入位置学习的同时训练双向模型(就像被屏蔽的语言模型一样)，就像语言模型一样。该区分模型的任务是区分“真实”和“伪造”输入数据。ELECTRA通过将一些令牌替换为不正确的伪造伪造来“破坏”输入，但在某种程度上看来是伪造的，然后需要模型来确定哪些令牌已被替换或保持不变。

替换令牌来自另一个称为生成器的AI模型。生成器可以是在令牌上产生输出分布的任何模型，但是Google研究人员使用了与鉴别器一起训练的小型屏蔽语言模型。生成器和鉴别器共享相同的输入词嵌入。在预训练阶段之后，将生成器放下，并在各种下游任务上微调鉴别器(ELECTRA模型)。

Google的AI使用更少的计算和数据来训练最先进的语言模型

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术