人工智能系统可以浏览网页以提高其性能-AI云资讯

在因特网解锁的大量信息中，大多数是纯文本。回答无数问题所需的数据 - 例如，某些化学品的工业用途与疾病事件之间或新闻报道模式与选民投票结果之间的相关性 - 可能都在线。但是从纯文本中提取它并将其组织用于定量分析可能非常耗时。

因此，信息提取 - 或自动分类存储为纯文本的数据项 - 是人工智能研究的一个主要课题。上周，在计算语言学协会关于自然语言处理经验方法的会议上，来自麻省理工学院计算机科学和人工智能实验室的研究人员获得了一项最佳论文奖，这是一种新的信息提取方法，可以使传统的机器学习成为现实。

大多数机器学习系统通过梳理训练样例并寻找与人类注释器提供的分类相对应的模式来工作。例如，人类可能在一组文本中标记词性，机器学习系统将尝试识别解决歧义的模式 - 例如，当“她”是直接对象时，以及何时是形容词。

通常，计算机科学家将尽可能多地为他们的机器学习系统提供培训数据。这通常会增加系统处理难题的机会。

相比之下，在他们的新论文中，麻省理工学院的研究人员对他们的系统进行了少量数据训练 - 因为在他们正在调查的情景中，通常都是可用的。但他们发现有限的信息是一个容易解决的问题。

“在信息提取方面，传统上，在自然语言处理中，你会得到一篇文章，你需要尽一切努力从本文中正确地提取，”Delta电子工程与计算机科学教授Regina Barzilay说道。作者在新论文上。“这与你或我会做的完全不同。当你正在阅读一篇你无法理解的文章时，你会去网上找一个你能理解的文章。“

信心提升

从本质上讲，研究人员的新系统也是如此。机器学习系统通常将其每个分类分配置信度分数，该置信度分数是在训练数据中识别出的模式的情况下分类正确的统计可能性的度量。使用研究人员的新系统，如果置信度得分过低，系统会自动生成一个网络搜索查询，旨在提取可能包含其尝试提取的数据的文本。

然后，它尝试从其中一个新文本中提取相关数据，并将结果与其初始提取的结果进行协调。如果置信度得分仍然太低，它会移动到搜索字符串拉出的下一个文本，依此类推。

麻省理工学院电气工程与计算机科学系(EECS)的研究生，新论文的共同作者之一亚当亚拉说：“基础提取器并没有改变。” “你会发现那些提取器更容易理解的文章。所以你有一些非常弱的提取器，你只需从网上自动找到适合它的数据。“在论文中加入Yala和Barzilay是第一作者Karthik Narasimhan，也是EECS的研究生。

值得注意的是，系统做出的每一个决定都是机器学习的结果。系统学习如何生成搜索查询，衡量新文本与其提取任务相关的可能性，并确定融合多次提取尝试结果的最佳策略。

只是事实

在实验中，研究人员将他们的系统应用于两个提取任务。一个是收集美国大规模枪击事件的数据，这是任何关于枪支管制措施影响的流行病学研究的重要资源。另一个是收集有关食品污染情况的类似数据。系统针对每项任务单独进行培训。

在第一个案例 - 大规模枪击数据库 - 系统被要求提取射击者的名字，射击的位置，受伤人数和被杀人数。在食品污染案例中，它提取食品类型，污染物类型和位置。在每种情况下，系统都接受了大约300份文件的培训。

从这些文档中，它学习了一些搜索术语，这些术语往往与它试图提取的数据项相关联。例如，群发射击者的名字与“警察”，“被识别”，“被逮捕”和“被指控”等术语相关。在训练期间，系统被要求分析每篇文章，平均而言，来自网络的另外九篇或十篇新闻文章。

研究人员将他们的系统性能与使用更传统的机器学习技术训练的几个提取器的性能进行了比较。对于在两个任务中提取的每个数据项，新系统的性能优于其前任，通常约为10%。

“自然语言的一个难点是，你可以用许多不同的方式表达相同的信息，捕捉所有这些变化是构建综合模型的挑战之一，”Chris Callison-Burch说道，他是助理教授。宾夕法尼亚大学的计算机和信息科学。“[Barzilay和她的同事们]拥有这个超级聪明的模型部分，并且会查询更多信息，这些信息可能会导致更难以处理的内容。它很聪明，执行得很好。“

Callison-Burch的小组正在结合使用自然语言处理和人工审查来建立枪支暴力信息数据库，就像麻省理工学院研究人员系统培训生产的那样。“我们已经抓获了数以百万计的新闻文章，然后我们挑选了文本分类器认为与枪支暴力相关的文章，然后我们让人类开始手动进行信息提取，”他说。“拥有像里贾纳这样的模型可以让我们预测这篇文章是否与我们已经注释过的文章相对应，这将节省大量时间。这是我将来非常兴奋的事情。

人工智能系统可以浏览网页以提高其性能

相关文章

AI企业

AI硬件

AI产业

AI技术