百度ERNIN获国际权威数据集GLUE最高分 《麻省理工科技评论》点赞
2019-12-30 15:19:31AI云资讯1311
12月26日,全球顶级科技商业杂志《麻省理工科技评论》(MITTechnologyReview)英文官方网站报道称,百度预训练模型ERNIE超越微软和谷歌获得自然语言处理领域权威数据集GLUE最高分。《麻省理工科技评论》指出,GLUE测试的满分为100分,人类的平均得分大概在87分左右,百度ERNIE则是在业界首次突破了90分。百度的成就能够表明多样化的贡献参与将有助于推动人工智能研究。
通用语言理解评估基准GLUE是自然语言处理领域最权威的排行榜之一。此前,自然语言模型擅长预测即将出现的下一个单词,自动完成拼写,但却无法理解一个小段落的连续思路。因为这些模型不能理解句子的意思,弄不清楚句子中代词的指代关系。2018年底,谷歌推出BERT,使用“掩码”技术更精准预测文本段落的含义。
但中文语境中,人工智能对自然语言理解更难。相较于英语里的一个单词代表一个含义,中文词语由多个汉字组成,单个汉字在不同词中又具备不同含义。比如灵,可以是机灵,也可以是灵魂。
2019年3月,百度发布NLP模型ERNIE破解了这一难题,通过ERNIE持续学习框架进一步优化了通用词汇级知识学习和面向任务类型的预训练,使得ERNIE能够掌据中文汉字构成词汇的方法,也更能准确预测出缺失的语句内容。而且,研究人员发现ERNIE在英语中也有更好的效果。
《麻省理工科技评论》指出ERNIE的重要意义不止于此,因其采用了连续培训的方法,在培训新数据和新任务的同时又不会遗忘已经积累的知识。如此,在不怎么需要人工干预的情况下,就能够越来越好的执行更广泛的任务。
短短4个月后,ERNIE再度升级。ERNIE 2.0持续学习的语义理解框架发布, 可支持增量引入不同角度的自定义预训练任务,通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,还可牢记以前学到过的信息。此外,ERNIE 2.0在16项中英文任务上超越了 BERT 和 XLNet,取得SOTA效果。据悉,百度ERNIE 2.0的论文已被国际人工智能顶级学术会议AAAI-2020收录,将于2020年2月面向行业公开展示。
(百度ERNIE 2.0原理示意图)
从研发到落地应用,从实现中文场景的突破到2.0版本的惊人表现,ERNIE屡创佳绩背后离不开百度飞桨的长期产业实践积累的高效率GPU分布式训练能力。飞桨的分布式训练能够在相同硬件设备的情况下,大大缩短产品迭代周期,满足深度学习模型对训练速度的高要求。目前,ERNIE预训练技术已广泛地应用于百度内外多个产品和技术场景,在百度搜索、小度音箱、信息流推荐等一系列产品应用中发挥了重要作用。
ERNIE世界性成果引发的国际媒体关注,也是中国自研技术领先业界的一个缩影。未来,将有越来越多ERNIE这样的中国科技、百度这样的中国企业,持续输出中国AI的“战斗值”
相关文章
- 沙利文AI云报告:阿里百度合计份额超五成,双雄格局初现
- 百度王海峰:通用大模型与场景大模型相辅相成 并非割裂
- 百度百科词条总量突破3000万,联合《大学科普》等多机构推出科普专刊
- 128 卡 4 天时间!百度百舸助力 LLaVA-OneVision-1.5 刷新多模态大模型训练效率纪录
- AI云战火再起,百度智能云行业首发AI云双十一普惠行动
- 百度千帆品牌战略升级:聚焦企业级Agent落地,已支撑创建超130万个Agent
- 出行智能体点亮国庆烟火气,百度地图正成为亿万人身边的AI出行向导
- 百度搜索用AI“复活”恐龙、文物带火十一文旅 获赵立坚点赞
- 北京互联网大会 | 百度副总裁陈洋:AI Coding为新质生产力注入“新码力”
- 百度智能云司南正式发布,违规内容审核效率提升10倍
- 百度沧海・存储团队研究成果入选计算机顶级学术会议SOSP'25
- 百度搜索上线「免费学习机」模式,正式推出 AI 伴学、AI 精准练
- 2025长春航空展:百度百科与航空科幻IP“南天门计划”达成独家中文百科合作
- 百度学术升级为行业首个一站式AI学术平台,6.9亿文献覆盖量全球领先
- 「百度智能云学堂」重磅发布,加速“云智一体”时代AI原生人才培养
- 百度首批签署联合国“创建可持续品牌”愿景倡议









