WWW 2020:百度入选论文解析,涵盖信息抽取、对抗生成等领域
2020-05-10 11:18:50AI云资讯1218
近日,国际顶级综合学术会议WWW 2020 (The Web Conference 2020) 在中国台湾如期举办。本次会议,百度研究院共有6篇论文入选,位居国内科技企业前列。而且其中大部分论文的全部作者均来自百度,展现出百度公司超高的科研水准和领先的技术实力。

创办于1994年,WWW会议由国际万维网会议委员会(IW3C2)和主办地地方团队合作组织,每年召开一次,今年是第29届。WWW会议被中国计算机学会(CCF)推荐为A类国际学术会议,每次都会吸引大批学者、研究人员、技术专家、政策制定者等人的广泛关注和参与。自2018年开始,WWW会议有了另外一个别名——“The Web Science (互联网科学)”,旨在为世界提供一个主要的论坛,以讨论和辩论Web的发展,其相关技术的标准化以及这些技术对社会和文化的影响,成为互联网领域最受关注的顶级学术会议之一。
下面将详细解读一下此次百度入选论文中的4篇,向行业分享研究成果:
论文1:Extracting Knowledge from Web Text with Monte Carlo Tree Search

每一天,互联网都会产生海量的非结构化文本数据,这些文本数据(比如新闻、博客等)包含了大量的非结构化的信息。对于人类而言,这些非结构化的信息是易于理解的,但是计算机很难直接利用这些非结构化的文本数据进行运算和逻辑处理。因此,从大量的非结构化信息中提取出结构化的知识,为后续自动化的信息处理、知识计算等任务构筑了有力的基石。
在本篇论文中,百度把信息抽取任务通过蒙特卡洛过程建模,提出了基于蒙特卡洛树搜索的开放领域信息抽取方法。在基于蒙特卡洛树搜索的强化学习架构中,信息抽取模型探索了大量的、可能的结构化知识,通过奖励函数的评价,反哺给信息抽取模型,从而在训练过程和推理过程中显著的提升了信息抽取模型的效果。在目前最大的人工标注中文结构化知识抽取数据集SAOKE中,模型取得了最好的效果。
论文2:Improved Touch-screen Inputting Using Sequence-level Prediction Generation

近年来,各种移动触屏设备不断的深入普及,在触屏软键盘上的输入效率则深深影响着人们的交流速度和用户体验。本篇论文对“触屏输入结果预测”的问题进行了形式化总结,阐述了依据“用户所输”和“用户所见”来预测“用户所想”的一般框架。同时,论文给出了在保证用户隐私的前提下,以输入效率为优化目标的特化问题描述。此外,论文描述了两种评价方法,以适应不同的用户输入习惯假设。实现方面,目前已有的输入效率提升方法包含输入纠错(包括字符替换、调序、删除、插入)、单词补全和候选打分排序等多个子步骤。本文提出了从“输入坐标序列”到“期望字符串”端到端的训练方法,并利用柱状搜索进行解码,实现了多个候选的一次性生成与排序。较分步骤的人工规则方法,这一方法有效提升了准确率,同时降低了特征构建成本,达到降本增效的成果。
论文3:Efficient Online Multi-Task Learning via Adaptive Kernel Selection

因为无法在线性不可分的数据上应用,传统的多任务学习限制任务间结构为线性相关。为了解决这一难题,百度提出在线多任务核方法来解决分类任务,这个方法所在的再生核希尔伯特空间能够提供更准确的分类函数。特别的是,此方法为每一个子任务维持一个局部-全局高斯分布模型,以此指导参数更新的方向和规模。然而,在计算上优化这一方法会相当昂贵。大多数多任务方法需要获取整个数据来训练算法,这就限制了其在大规模数据流场景的应用。
为此,百度提出了一个随机采样的方法来为模型进行可适应素描。此方法不需要所有的数据标签,它会通过相似任务对标签预测的自信度,来决定是否需要数据的标签。理论上证明,与学习所有标签的方法比,此方法在采样样本上学习能够得到相似的结果。实验上,此方法能够提高准确性,同时减少了计算复杂度和标签成本。
论文4:Estimate the Implicit Likelihood of Gas with Application to Anomaly Detection

本篇论文提出了一种计算对抗生成网络(GAN)隐含似然值(implicit likelihood value)的方法,并应用于异常检测。不同于基于极大似然估计的方法,训练良好的GAN可以学习和生成尖锐的图像局部信息。但是,GAN 是一种隐含模型,很难直接估计给定数据点的似然值。这是由于直接通过GAN获取给定数据点(Data Sample)的隐藏变量(Latent Variable)比较困难,再者,对抗学习到的生成网络(Generator)的雅可比矩阵(Jacobian Matrix)通常不是满秩的, 无法直接用变量变换的形式来通过隐藏变量(Latent Variable)计算数据点的似然值。
为克服上述困难,本篇论文提出通过对抗生成模型增加推理网络(Inference Network)和方差网络(Variance Network)。基于RBF核的方差网络,可以把生成网络的输出拓展到整个生成空间,并且可以学习数据点的局部不确定性。对于给定的数据点,可以用学习到的推理网络直接获取数据点的隐藏变量。此外,通过方差网络和推理网络的结合,可以避免雅可比矩阵的奇异值的问题。本篇论文提出的模型在MNIST,CIFAR10,Imagenet32获得优于其他基于神经网络的成模型的似然估计,在MNIST 和 CIFAR10等数据集上有不错的异常检测的表现。
以上介绍的4篇论文是百度研究院众多出色研究成果的一小部分。百度研究院由百度CTO王海峰博士兼任院长,已经取得了一系列前瞻的研究成果和技术落地应用。后续还将持续向行业介绍更多来自百度研究院的学术论文成果。
相关文章
- 百度智能云与帕西尼达成战略合作 共同推动具身智能产业规模化落地
- 百度智能云:加大三方面投入 解决具身智能产业硬问题
- 百度沈抖:自我进化,开启超级个体黄金时代
- 百度一镜升级,数字人进入“全场景+全球化”时代
- 百度智能云升级百度一见视觉智能体平台:内置1000+专业视觉Skills,可自主进化
- 百度智能云发起智慧养老产业联盟,8家企业首批加入
- 百度Create2026:AI Agent走进家庭,小度给出落地样本
- L4级自动驾驶车辆驶入中国农业大学 百度Apollo星火计划再落一子
- 百度百科20周年沙龙致敬百万UGC用户:让3000万+词条成为时代的知识方舟
- AI生万象,灵感疯长——百度百家号AI创作者漫谈大会圆满落幕
- 2026百度创作者大会:AI引擎赋能创作 共生共筑新生态
- 领跑中国乘用车NOA辅助驾驶地图市场份额 百度地图实力亮相2026北京车展
- 百度百科“繁星计划”再加码,投入2000万基金激励权威内容建设
- 行业首发!鸿蒙版雅迪智行App深度集成百度地图SDK,上线投屏导航,实现“抬头骑行,眼不离路”
- 百度APP用户数据再攀升:主动日活用户同比增长1.6倍、创作者规模同比增长近3成
- 行业首家!百度地图×雅迪首发支持鸿蒙投屏导航,两轮车智慧出行迈入“鸿蒙时代”
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









