亚马逊研究人员训练AI重写查询以更好地理解口语
2020-03-18 12:11:00AI云资讯722
听说过查询重写吗?这是一种用于减轻口语理解(SLU)管道中的错误的技术,例如支持Amazon的Alexa,Google Assistant,Apple的Siri和其他语音助手的管道。许多SLU系统分为两个部分:负责将音频转换为文本的自动语音识别(ASR)系统,以及从结果摘要中提取含义的自然语言理解组件(NLU),而且每个问题都会带来错误(例如,由于背景噪音和说话者口音造成的文字识别错误)会累积并引起会话摩擦。
幸运的是,查询重写已在生产系统中显示出令人鼓舞的结果;它需要记录本并重写,然后再将其发送到下游NLU系统。这可能就是为什么Drexel大学和Amazon的研究人员在预印本纸上研究了一种方法,该方法使用AI用重新构造的查询代替原始查询。
团队的系统使用经过训练的模型来从查询中捕获潜在的句法和语义信息,从而选择最相关的候选项作为查询的重写。给定输入查询,嵌入器模块通过将查询输入预先训练的上下文词模型中来提取表示形式。然后将该表示形式合并为查询级别的数学表示形式(嵌入),此时将使用一种机制来测量两个查询的相似性。数百万索引的原始查询和重写来自从Alexa的历史数据中选择的一组预定义的高精度重写对,而最相关的是由系统按需检索。
研究人员指出:“ SLU系统中的NLU组件为查询提供了半结构化的语义表示,其中可以通过相同的NLU假设将各种文本形式但具有相同语义的查询组合在一起。”“例如,'请您播放想象中的巨龙','打开想象中的巨龙'[和]'播放想象中的巨龙的歌曲'具有相同的语义和相同的NLU假设,但是它们的文字不同。直观地讲,使用噪声较小的NLU假设来扩充查询文本可能会有所帮助。”
为了训练该系统,该团队构建了两个数据集:一个用于预训练话语嵌入,另一个用于微调预训练的模型。预训练集包括1100万个会话,涉及约3000万话语,而微调集(使用现有的重新短语检测模型管道生成)具有220万对话语。
研究人员通过在16,000对带注释的测试集中,将检索到的重写候选的NLU假设与实际的NLU假设进行比较,从而评估了查询重写性能。对于每个给定的查询,他们检索了前20个重写,并且使用重写的NLU假设通过标准信息检索指标来测量系统性能。
该团队报告说,预训练不仅显着减少了对高质量查询检索训练对的需求,而且“显着”提高了性能。他们写道:“尽管我们在本文中专注于QR任务的预训练,但我们认为类似的策略可能会应用于NLU中的其他任务,” [例如]域分类。
相关文章
- 涂鸦智能荣膺亚马逊云科技2025年合作伙伴奖项
- 伊克罗德信息蝉联2025亚马逊云科技中国区年度创新合作伙伴奖,以AI深耕云端未来
- 聚焦亚马逊峰会:获官方推荐合作伙伴PartnerBoost,展位洽谈热度持续攀升
- 亚马逊要求Perplexity停止用AI浏览器智能体为用户代购商品
- OpenAI与亚马逊达成380亿美元AI训练合作协议
- 受人工智能技术的影响,亚马逊宣布裁撤14000个工作岗位
- 奈飞、亚马逊和苹果均有意收购华纳兄弟
- 希箭智能马桶为何常年霸榜亚马逊热销榜?揭秘海外 “圈粉” 密码
- Aqara 携手西门子西碳迹SiTANJI,发布亚马逊 CPF 绿标解决方案标杆案例
- 店匠科技登榜 2025 AI Cloud 100 China,携手亚马逊云科技加速 AI 场景化落地
- 从“烟囱式监控”到观测云平台:2025 亚马逊云科技峰会专访
- 亚马逊云科技宣布中国企业出海业务战略升级
- 亚马逊云科技Amazon SageMaker Unified Studio现已可用,加速数据分析和人工智能创新
- 亚马逊首款量子计算芯片Ocelot亮相,微软/谷歌/微美全息竞逐加速量子行业成熟
- 涂鸦智能宣布与亚马逊云科技IoT集成,增强智能家居连接能力
- 亚马逊Prime Video推出了AI Topics功能,利用人工智能来推荐内容









