百度ERINE连拿五项国际冠军 攻克语义难关让AI更懂世界
2020-03-27 15:51:09AI云资讯733
这两天,全球规模最大的语义评测比赛 SemEval 2020结果出炉,百度凭借自研的语义理解框架 ERNIE一举斩获5项世界冠军,囊括视觉媒体的关键文本片段挖掘、多语攻击性语言检测和混合语种的情感分析。

SemEval是全球范围规模最大、参赛人数最多的权威语义评测竞赛,由国际计算语言学协会(Association for Computational Linguistics, ACL)的 SIGLEX主办。自2001年起,SemEval已成功举办十四届,在业界和学术界具有极高影响力。此次SemEval和自然语言处理领域的顶级会议COLING联合举办。
ERNIE是此次五项世界冠军背后的“趁手利器”。去年,ERNIE先后完成两版重大升级。ERNIE1.0提出知识增强的语义表示模型,而ERNIE2.0则构建了持续学习语义理解框架,在中英文16个任务上超越业界最好模型。此后,ERNIE模型再次改进,以历史上首次超越90大关的成绩登顶自然语言处理领域最权威的GLUE评测榜单。本次比赛,ERNIE再度创新,再立战功,夺得五项世界冠军。
让AI更懂“轻重”:视觉媒体的关键文本片段挖掘
该任务由美国休斯顿大学、Adobe美国研究院联合举办,旨在自动挖掘海报、广告、传单等视觉媒体中文本的关键片段,对其进行重点设计,提升宣传效果。由于人们对于同一文本重要内容的判断不一致,在没有唯一标准的情况下,该任务存在极大的难度。

比赛中,主办方Adobe希望将赛题的解决方案应用于AdobeSpark,赋予其海报自动设计能力,以达到更好的宣传效果。如下图所示的“ERNIE”、“轻重”的黑白效果就是自动挑选的结果。百度ERNIE团队采用ERNIE让AI更懂文字的“轻重”,释放广大视觉设计者的劳动力,使其能够更专注于对核心内容的设计。此外,该项技术已应用于百度搜索,能够动态分析出用户查询内容中的重要片段,使其返回更精准的搜索结果,让百度更懂您。

让世界更有“AI”:多语攻击性语言检测
该任务由多个国家的研究机构联合举办。其中包括了英国剑桥大学、美国IBM研究院、以及来自德国、丹麦、卡塔尔的多所著名大学和研究院。该任务包含了三个子任务:
第一个子任务是在对英语、丹麦语、希腊语、阿拉伯语和土耳其语等包含五种语言的社交媒体进行攻击性检测。百度ERNIE团队构建了大规模的多语预训练模型,充分挖掘海量的多语无监督文本,用相同的模型来学习所有语种的语义表示,使模型具备跨语言的理解和分析能力。同时,采用Multi-lingual Fine-tuning的方法,利用其他语言的知识辅助建模,最终以五项语言平均分第一名的成绩取得冠军。

随着网民人数的不断增加,网民态度立场不同、文化水平及道德素质参差不齐的状况便摆在我们面前。网络暴力和网络人身攻击现象由此而生。政府、社交网站、搜索引擎、兴趣社区都在大力研究如何检测出社交媒体攻击性行为,帮助人们构建一个更加和谐友爱的网络环境。百度的研究者也希望通过这一技术,能够让世界充满“AI”,少一些偏见。
让AI更有情感:混合语种的情感分析
该任务的主办方包括谷歌研究院、美国休斯敦大学以及印度的多所高校等。在比赛中,主办方搜集了源于社交网络的语料片段,测试参赛者对于相关语料片段的情感分析能力。这些语料中都包含一种特殊的语言现象:语码混用——即一段语料中同时混有多种语言。主办方致力于探索时下的 AI技术对于这一类新问题的解决能力。
不同于传统的情感分析,随着互联网上的内容越来越丰富,夹杂着不同语种的内容不断产生。这些内容中可能混合着中文、英文等多种语言。针对此类文本内容,传统的基于单语语料的情感分类模型已经无法发挥作用。针对此问题,百度的研究者首先利用ERNIE进行Zero-Shot情感分类。为了充分利用多语种语料的信息,还引入了基于对抗学习的多语种模型,进一步提升了多语种情感分析的效果。最终在印度语/英语混合任务上以F1值超过第二名 1.9%的绝对优势获得第一。

随着AI技术日新月异的发展,已经逐渐的走进千家万户。在解决日常生活需求之余,让AI可以更通情达理、更知性,并感知用户的喜怒哀乐、提供贴心的服务,也是一个有温度的AI应该达成的目标。百度始终希望通过AI让复杂的世界有更多的贴心。
百度ERNIE团队在SemEval2020取得五项世界冠军并非偶然,这得益于团队在语义理解领域的深厚积累。目前,ERNIE语义理解技术已广泛地应用于百度内外多个产品和技术场景,在百度搜索、小度音箱、信息流推荐等一系列产品应用中发挥了重要作用,大幅提升了产品的技术效果和用户体验,逐步赋能各行各业。
赋予机器“认知”能力,是人工智能中最具挑战的问题。自然语言处理是认知智能中的重要领域。深入理解语言,让机器具备人类的思考和理解能力意义重大。百度在自然语言处理领域已有二十年的积累与沉淀,具备了最前沿、最全面、最领先的技术布局,不仅专注于前瞻技术探索,更致力通过技术应用解决实际问题。
相关文章
- 百度智能云与帕西尼达成战略合作 共同推动具身智能产业规模化落地
- 百度智能云:加大三方面投入 解决具身智能产业硬问题
- 百度沈抖:自我进化,开启超级个体黄金时代
- 百度一镜升级,数字人进入“全场景+全球化”时代
- 百度智能云升级百度一见视觉智能体平台:内置1000+专业视觉Skills,可自主进化
- 百度智能云发起智慧养老产业联盟,8家企业首批加入
- 百度Create2026:AI Agent走进家庭,小度给出落地样本
- L4级自动驾驶车辆驶入中国农业大学 百度Apollo星火计划再落一子
- 百度百科20周年沙龙致敬百万UGC用户:让3000万+词条成为时代的知识方舟
- AI生万象,灵感疯长——百度百家号AI创作者漫谈大会圆满落幕
- 2026百度创作者大会:AI引擎赋能创作 共生共筑新生态
- 领跑中国乘用车NOA辅助驾驶地图市场份额 百度地图实力亮相2026北京车展
- 百度百科“繁星计划”再加码,投入2000万基金激励权威内容建设
- 行业首发!鸿蒙版雅迪智行App深度集成百度地图SDK,上线投屏导航,实现“抬头骑行,眼不离路”
- 百度APP用户数据再攀升:主动日活用户同比增长1.6倍、创作者规模同比增长近3成
- 行业首家!百度地图×雅迪首发支持鸿蒙投屏导航,两轮车智慧出行迈入“鸿蒙时代”
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









