人工智能系统可以浏览网页以提高其性能
2019-03-14 12:40:33爱云资讯
在因特网解锁的大量信息中,大多数是纯文本。回答无数问题所需的数据 - 例如,某些化学品的工业用途与疾病事件之间或新闻报道模式与选民投票结果之间的相关性 - 可能都在线。但是从纯文本中提取它并将其组织用于定量分析可能非常耗时。
因此,信息提取 - 或自动分类存储为纯文本的数据项 - 是人工智能研究的一个主要课题。上周,在计算语言学协会关于自然语言处理经验方法的会议上,来自麻省理工学院计算机科学和人工智能实验室的研究人员获得了一项最佳论文奖,这是一种新的信息提取方法,可以使传统的机器学习成为现实。
大多数机器学习系统通过梳理训练样例并寻找与人类注释器提供的分类相对应的模式来工作。例如,人类可能在一组文本中标记词性,机器学习系统将尝试识别解决歧义的模式 - 例如,当“她”是直接对象时,以及何时是形容词。
通常,计算机科学家将尽可能多地为他们的机器学习系统提供培训数据。这通常会增加系统处理难题的机会。
相比之下,在他们的新论文中,麻省理工学院的研究人员对他们的系统进行了少量数据训练 - 因为在他们正在调查的情景中,通常都是可用的。但他们发现有限的信息是一个容易解决的问题。
“在信息提取方面,传统上,在自然语言处理中,你会得到一篇文章,你需要尽一切努力从本文中正确地提取,”Delta电子工程与计算机科学教授Regina Barzilay说道。作者在新论文上。“这与你或我会做的完全不同。当你正在阅读一篇你无法理解的文章时,你会去网上找一个你能理解的文章。“
信心提升
从本质上讲,研究人员的新系统也是如此。机器学习系统通常将其每个分类分配置信度分数,该置信度分数是在训练数据中识别出的模式的情况下分类正确的统计可能性的度量。使用研究人员的新系统,如果置信度得分过低,系统会自动生成一个网络搜索查询,旨在提取可能包含其尝试提取的数据的文本。
然后,它尝试从其中一个新文本中提取相关数据,并将结果与其初始提取的结果进行协调。如果置信度得分仍然太低,它会移动到搜索字符串拉出的下一个文本,依此类推。
麻省理工学院电气工程与计算机科学系(EECS)的研究生,新论文的共同作者之一亚当亚拉说:“基础提取器并没有改变。” “你会发现那些提取器更容易理解的文章。所以你有一些非常弱的提取器,你只需从网上自动找到适合它的数据。“在论文中加入Yala和Barzilay是第一作者Karthik Narasimhan,也是EECS的研究生。
值得注意的是,系统做出的每一个决定都是机器学习的结果。系统学习如何生成搜索查询,衡量新文本与其提取任务相关的可能性,并确定融合多次提取尝试结果的最佳策略。
只是事实
在实验中,研究人员将他们的系统应用于两个提取任务。一个是收集美国大规模枪击事件的数据,这是任何关于枪支管制措施影响的流行病学研究的重要资源。另一个是收集有关食品污染情况的类似数据。系统针对每项任务单独进行培训。
在第一个案例 - 大规模枪击数据库 - 系统被要求提取射击者的名字,射击的位置,受伤人数和被杀人数。在食品污染案例中,它提取食品类型,污染物类型和位置。在每种情况下,系统都接受了大约300份文件的培训。
从这些文档中,它学习了一些搜索术语,这些术语往往与它试图提取的数据项相关联。例如,群发射击者的名字与“警察”,“被识别”,“被逮捕”和“被指控”等术语相关。在训练期间,系统被要求分析每篇文章,平均而言,来自网络的另外九篇或十篇新闻文章。
研究人员将他们的系统性能与使用更传统的机器学习技术训练的几个提取器的性能进行了比较。对于在两个任务中提取的每个数据项,新系统的性能优于其前任,通常约为10%。
“自然语言的一个难点是,你可以用许多不同的方式表达相同的信息,捕捉所有这些变化是构建综合模型的挑战之一,”Chris Callison-Burch说道,他是助理教授。宾夕法尼亚大学的计算机和信息科学。“[Barzilay和她的同事们]拥有这个超级聪明的模型部分,并且会查询更多信息,这些信息可能会导致更难以处理的内容。它很聪明,执行得很好。“
Callison-Burch的小组正在结合使用自然语言处理和人工审查来建立枪支暴力信息数据库,就像麻省理工学院研究人员系统培训生产的那样。“我们已经抓获了数以百万计的新闻文章,然后我们挑选了文本分类器认为与枪支暴力相关的文章,然后我们让人类开始手动进行信息提取,”他说。“拥有像里贾纳这样的模型可以让我们预测这篇文章是否与我们已经注释过的文章相对应,这将节省大量时间。这是我将来非常兴奋的事情。
- 卓翼智能无人机+人工智能助力森林防灭火,科技赋能守护绿色林海
- 上海人工智能实验室发布自动驾驶视频生成模型GenAD
- Supermicro 采用新一代系统和机架架构以扩大人工智能优化产品组合
- “人工智能+教育” 木愚科技AIGC满足教育新要求
- 推进“人工智能+”行动:全应科技在热电能源领域的创新实践
- 哈尔滨工业大学(深圳)成功举办InsunICC人工智能学术研讨会
- 大咖畅谈AI发展前景:在可见未来,人类都可掌控人工智能
- 喜报!神州医疗获评“医疗大数据与人工智能行业2023年度企业”
- 腾讯钟学丹:人工智能成为汽车行业新质生产力 推动数智化升级
- 助推智慧医疗产业健康发展,云知声加入医学人工智能委员会
- 点燃发展新引擎 天翼数字生活公司以“人工智能+”推动数字经济变革创新
- 飞天云动积极探索“人工智能+”,推动元宇宙数字文旅、VR视频直播应用场景落地
- 人工智能走进产业,CeMeta森宇宙AI营销产品登陆AWE2024
- 易联众“智鼎云帆”行业大模型发布,打造民生领域人工智能得力助手
- AIport报告:全球生成式人工智能发展格局揭晓,中国亚洲领先地位凸显
- 科大讯飞人工智能赋能司法事业,讯飞智能录音笔全程助力