再度PK谷歌预训练模型BERT,百度发布ERNIE 2.0,16个中英文任务全面超越
2019-07-31 16:05:38爱云资讯683
2019年3月,百度正式发布NLP模型ERNIE,其在中文任务中全面超越BERT一度引发业界广泛关注和探讨。
今天,经过短短几个月时间,百度ERNIE再升级。发布持续学习的语义理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0预训练模型。继1.0后,ERNIE英文任务方面取得全新突破,在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。目前,百度ERNIE 2.0的Fine-tuning代码和英文预训练模型已开源。(Github 项目地址:https://github.com/PaddlePaddle/ERNIE)
近两年,以BERT、XLNet为代表的无监督预训练技术在语言推断、语义相似度、命名实体识别、情感分析等多个自然语言处理任务上取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。
百度发现,之前的工作主要通过词或句子的共现信号,构建语言模型任务进行模型预训练。例如,BERT通过掩码语言模型和下一句预测任务进行预训练。XLNet构建了全排列的语言模型,并通过自回归的方式进行预训练。
然而,除了语言共现信息之外,语料中还包含词法、语法、语义等更多有价值的信息。例如,人名、地名、机构名等词语概念知识,句子间顺序和距离关系等结构知识,文本语义相似度和语言逻辑关系等语义知识。设想如果能持续地学习各类任务,模型的效果能否进一步提升?

ERNIE 2.0:可持续学习语义理解框架
基于此,百度提出可持续学习语义理解框架ERNIE 2.0。该框架支持增量引入词汇(lexical)、语法 (syntactic) 、语义 (semantic) 等3个层次的自定义预训练任务,能够全面捕捉训练语料中的词法、语法、语义等潜在信息。这些任务通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。这也意味着,该框架可以通过持续构建训练包含词法、句法、语义等预训练任务,持续提升模型效果。

新发布的ERNIE 2.0模型结构
依托该框架,百度充分借助飞桨PaddlePaddle多机分布式训练优势,利用 79亿tokens训练数据(约1/4的XLNet数据)和64张V100 (约1/8的XLNet硬件算力)训练的ERNIE 2.0预训练模型不仅实现了SOTA效果,而且为开发人员定制自己的NLP模型提供了方案。目前,百度开源了ERNIE 2.0的fine-tuning代码和英文预训练模型。
百度研究团队分别比较了中英文环境上的模型效果。英文上,ERNIE 2.0在自然语言理解数据集GLUE的7个任务上击败了BERT和XLNet。中文上,在包括阅读理解、情感分析、问答等不同类型的9个数据集上超越了BERT并刷新了SOTA。
ERNIE的工作表明,在预训练过程中,通过构建各层面的无监督预训练任务,模型效果也会显著提升。未来,研究者们可沿着该思路构建更多的任务提升效果。
自2018 年预训练语言模型 BERT 提出之后,预训练语言模型将自然语言处理的大部分任务水平提高了一个等级,这个领域的研究也掀起了热潮。如今百度ERNIE 2.0 再度为行业提供了研究思路上的方法创新,可持续学习的特点亦将成为NLP领域发展里程中的注脚。
相关文章
- 苹果全力研发增强现实AR眼镜,谷歌/微美全息夯实领先优势开启空间交互时代!
- OpenAI拟从谷歌收购Chrome
- 谷歌最新发布Agent2Agent 协议 (A2A)
- 谷歌地图推出新工具,助力城市分析基础设施与交通状况
- 亚马逊首款量子计算芯片Ocelot亮相,微软/谷歌/微美全息竞逐加速量子行业成熟
- 阿里开源模型万相2.1引爆视频赛道!谷歌/微美全息加入全模态AI开源新时代!
- 谷歌公布2025年I/O开发者大会日期,定档5月20日
- 三星与谷歌联手开发AR眼镜,Meta/微美全息硬件先行共绘XR未来蓝图
- 谷歌量子芯片重磅登场掀热潮,微美全息持续打造量子“芯”质生产力
- Meta携手卡梅隆共铸3D沉浸世界,谷歌/微美全息创新引领全息虚拟新纪元
- 抢先OpenAI Sora谷歌新推Veo模型,亚马逊/微美全息加入AI视频生成竞赛引关注
- 谷歌DeepMind发布Gemini 2.0人工智能模型
- 2025年AI Agent商用蓄势待发,微软/谷歌/微美全息纷纷入局重塑AI全产业链
- 谷歌发布突破性量子计算芯片Willow:五分钟完成超算10的25次方年的计算
- 预报天气更快、更准确!谷歌发布AI天气预测模型GenCast
- 谷歌文生视频模型Veo私人预览版在Vertex AI平台上线
人工智能技术
更多>>人工智能公司
更多>>人工智能硬件
更多>>- 行业首款 TÜV 南德「三防品质」认证手机 魅族 Note 16 系列 5 月 13 日发布
- 神眸开启AI智能摄像机无线时代:全定制芯片方法学+六神守护价值体系,坚守初心普惠千万家庭
- 时尚博主们爱不释手!宏碁非凡Go Air毕竟只有999克
- 未来智能将发布新一代讯飞AI会议耳机 重新定义办公生产力
- 技嘉科技横扫 2025 iF 与红点设计大奖,展现全产品线研发实力
- 玩家福音,RTX 5070加持6999元起,华硕天选6 Pro锐龙版高能来袭
- 【强势上新】HPM5E00:EtherCAT运动控制MCU,先楫半导体再拓工业总线产品新版图
- 荣耀MagicBook Pro 16 2025正式发布:轻薄静音性能旗舰,重塑游戏本体验