WWW 2020:百度入选论文解析,涵盖信息抽取、对抗生成等领域
2020-05-10 11:18:50爱云资讯1103
近日,国际顶级综合学术会议WWW 2020 (The Web Conference 2020) 在中国台湾如期举办。本次会议,百度研究院共有6篇论文入选,位居国内科技企业前列。而且其中大部分论文的全部作者均来自百度,展现出百度公司超高的科研水准和领先的技术实力。
创办于1994年,WWW会议由国际万维网会议委员会(IW3C2)和主办地地方团队合作组织,每年召开一次,今年是第29届。WWW会议被中国计算机学会(CCF)推荐为A类国际学术会议,每次都会吸引大批学者、研究人员、技术专家、政策制定者等人的广泛关注和参与。自2018年开始,WWW会议有了另外一个别名——“The Web Science (互联网科学)”,旨在为世界提供一个主要的论坛,以讨论和辩论Web的发展,其相关技术的标准化以及这些技术对社会和文化的影响,成为互联网领域最受关注的顶级学术会议之一。
下面将详细解读一下此次百度入选论文中的4篇,向行业分享研究成果:
论文1:Extracting Knowledge from Web Text with Monte Carlo Tree Search
每一天,互联网都会产生海量的非结构化文本数据,这些文本数据(比如新闻、博客等)包含了大量的非结构化的信息。对于人类而言,这些非结构化的信息是易于理解的,但是计算机很难直接利用这些非结构化的文本数据进行运算和逻辑处理。因此,从大量的非结构化信息中提取出结构化的知识,为后续自动化的信息处理、知识计算等任务构筑了有力的基石。
在本篇论文中,百度把信息抽取任务通过蒙特卡洛过程建模,提出了基于蒙特卡洛树搜索的开放领域信息抽取方法。在基于蒙特卡洛树搜索的强化学习架构中,信息抽取模型探索了大量的、可能的结构化知识,通过奖励函数的评价,反哺给信息抽取模型,从而在训练过程和推理过程中显著的提升了信息抽取模型的效果。在目前最大的人工标注中文结构化知识抽取数据集SAOKE中,模型取得了最好的效果。
论文2:Improved Touch-screen Inputting Using Sequence-level Prediction Generation
近年来,各种移动触屏设备不断的深入普及,在触屏软键盘上的输入效率则深深影响着人们的交流速度和用户体验。本篇论文对“触屏输入结果预测”的问题进行了形式化总结,阐述了依据“用户所输”和“用户所见”来预测“用户所想”的一般框架。同时,论文给出了在保证用户隐私的前提下,以输入效率为优化目标的特化问题描述。此外,论文描述了两种评价方法,以适应不同的用户输入习惯假设。实现方面,目前已有的输入效率提升方法包含输入纠错(包括字符替换、调序、删除、插入)、单词补全和候选打分排序等多个子步骤。本文提出了从“输入坐标序列”到“期望字符串”端到端的训练方法,并利用柱状搜索进行解码,实现了多个候选的一次性生成与排序。较分步骤的人工规则方法,这一方法有效提升了准确率,同时降低了特征构建成本,达到降本增效的成果。
论文3:Efficient Online Multi-Task Learning via Adaptive Kernel Selection
因为无法在线性不可分的数据上应用,传统的多任务学习限制任务间结构为线性相关。为了解决这一难题,百度提出在线多任务核方法来解决分类任务,这个方法所在的再生核希尔伯特空间能够提供更准确的分类函数。特别的是,此方法为每一个子任务维持一个局部-全局高斯分布模型,以此指导参数更新的方向和规模。然而,在计算上优化这一方法会相当昂贵。大多数多任务方法需要获取整个数据来训练算法,这就限制了其在大规模数据流场景的应用。
为此,百度提出了一个随机采样的方法来为模型进行可适应素描。此方法不需要所有的数据标签,它会通过相似任务对标签预测的自信度,来决定是否需要数据的标签。理论上证明,与学习所有标签的方法比,此方法在采样样本上学习能够得到相似的结果。实验上,此方法能够提高准确性,同时减少了计算复杂度和标签成本。
论文4:Estimate the Implicit Likelihood of Gas with Application to Anomaly Detection
本篇论文提出了一种计算对抗生成网络(GAN)隐含似然值(implicit likelihood value)的方法,并应用于异常检测。不同于基于极大似然估计的方法,训练良好的GAN可以学习和生成尖锐的图像局部信息。但是,GAN 是一种隐含模型,很难直接估计给定数据点的似然值。这是由于直接通过GAN获取给定数据点(Data Sample)的隐藏变量(Latent Variable)比较困难,再者,对抗学习到的生成网络(Generator)的雅可比矩阵(Jacobian Matrix)通常不是满秩的, 无法直接用变量变换的形式来通过隐藏变量(Latent Variable)计算数据点的似然值。
为克服上述困难,本篇论文提出通过对抗生成模型增加推理网络(Inference Network)和方差网络(Variance Network)。基于RBF核的方差网络,可以把生成网络的输出拓展到整个生成空间,并且可以学习数据点的局部不确定性。对于给定的数据点,可以用学习到的推理网络直接获取数据点的隐藏变量。此外,通过方差网络和推理网络的结合,可以避免雅可比矩阵的奇异值的问题。本篇论文提出的模型在MNIST,CIFAR10,Imagenet32获得优于其他基于神经网络的成模型的似然估计,在MNIST 和 CIFAR10等数据集上有不错的异常检测的表现。
以上介绍的4篇论文是百度研究院众多出色研究成果的一小部分。百度研究院由百度CTO王海峰博士兼任院长,已经取得了一系列前瞻的研究成果和技术落地应用。后续还将持续向行业介绍更多来自百度研究院的学术论文成果。
相关文章
- 百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!
- 百度文库智能PPT月访问量超3400万、位列全球第一,市场份额断崖式领先
- PPIO上线百度文心4.5系列开源模型
- 北京工商大学加入“星火计划”:携手百度Apollo共建自动驾驶产学研用繁荣生态
- 全国最大MCP平台!百度搜索已收录MCP server 超 1.6万
- 酷宅携AI硬件方案亮相百度智能云AI玩具产业创新峰会
- 百度AI搜索全面接入DeepSeek R1 最新版 进一步强化智能搜索体验
- 百度美的联手启动“安心维保计划”,重塑家电维修服务新标准!
- 腾讯AI数字人AvaMo落地商用,百度/微美全息加速虚拟人生态闭环构建
- 国内首个!百度文心大模型X1 Turbo斩获信通院最高评级证书
- 不用出国也能参观海外流失文物!百度百科启动「数字文物守护计划」
- 5.17电信日 | 外呼行业30年蝶变,百度智能云客悦用大模型重塑沟通价值
- 百度百家号上线首档纪实向内容IP“换个角度看世界”,破亿分发见证时代切面
- 百度国际MediaGo正式发布SmartBid 3.0,助力广告主轻松起量、稳定增长
- 文心快码3.5 全新升级:为百度创造40%新增代码,累计服务760万开发者
- 超拟真、会思考、能协同,百度慧播星发布高说服力数字人
人工智能技术
更多>>人工智能公司
更多>>人工智能硬件
更多>>- 兼顾纤薄、耐用与可持续 Galaxy Z Flip7展现三星卓越的产品设计能力
- 新石器无人车部署超7500辆,成全球最大规模无人车队
- 未来式智能亮相 WAIC 2025,以人机协同范式引领产业智能变革
- 全球首例!康诺思腾手术机器人完成临床场景下自主手术验证,研究成果登上顶级期刊《Science Robotics》
- 超能AI+折叠大屏 新一代三星Galaxy Z Fold7|Z Flip7邂逅沈阳
- 技嘉 M27Q2 QD 高清2K 量子点电竞显示器正式上市
- 新型Xsens Avior OEM IMU,体积小、重量轻,可在苛刻的工作条件下提供高精度和高稳定性
- 从 “认知优势” 到现实赋能:DPVR AI Glasses 重构智能穿戴价值