亚马逊研究人员训练AI重写查询以更好地理解口语-爱云资讯

首页人工智能公司正文

听说过查询重写吗?这是一种用于减轻口语理解(SLU)管道中的错误的技术，例如支持Amazon的Alexa，Google Assistant，Apple的Siri和其他语音助手的管道。许多SLU系统分为两个部分：负责将音频转换为文本的自动语音识别(ASR)系统，以及从结果摘要中提取含义的自然语言理解组件(NLU)，而且每个问题都会带来错误(例如，由于背景噪音和说话者口音造成的文字识别错误)会累积并引起会话摩擦。

幸运的是，查询重写已在生产系统中显示出令人鼓舞的结果;它需要记录本并重写，然后再将其发送到下游NLU系统。这可能就是为什么Drexel大学和Amazon的研究人员在预印本纸上研究了一种方法，该方法使用AI用重新构造的查询代替原始查询。

团队的系统使用经过训练的模型来从查询中捕获潜在的句法和语义信息，从而选择最相关的候选项作为查询的重写。给定输入查询，嵌入器模块通过将查询输入预先训练的上下文词模型中来提取表示形式。然后将该表示形式合并为查询级别的数学表示形式(嵌入)，此时将使用一种机制来测量两个查询的相似性。数百万索引的原始查询和重写来自从Alexa的历史数据中选择的一组预定义的高精度重写对，而最相关的是由系统按需检索。

研究人员指出：“ SLU系统中的NLU组件为查询提供了半结构化的语义表示，其中可以通过相同的NLU假设将各种文本形式但具有相同语义的查询组合在一起。”“例如，'请您播放想象中的巨龙'，'打开想象中的巨龙'[和]'播放想象中的巨龙的歌曲'具有相同的语义和相同的NLU假设，但是它们的文字不同。直观地讲，使用噪声较小的NLU假设来扩充查询文本可能会有所帮助。”

为了训练该系统，该团队构建了两个数据集：一个用于预训练话语嵌入，另一个用于微调预训练的模型。预训练集包括1100万个会话，涉及约3000万话语，而微调集(使用现有的重新短语检测模型管道生成)具有220万对话语。

研究人员通过在16,000对带注释的测试集中，将检索到的重写候选的NLU假设与实际的NLU假设进行比较，从而评估了查询重写性能。对于每个给定的查询，他们检索了前20个重写，并且使用重写的NLU假设通过标准信息检索指标来测量系统性能。

该团队报告说，预训练不仅显着减少了对高质量查询检索训练对的需求，而且“显着”提高了性能。他们写道：“尽管我们在本文中专注于QR任务的预训练，但我们认为类似的策略可能会应用于NLU中的其他任务，” [例如]域分类。