腾讯发布语音智能全新品牌,技术升级全面提升语音交互
2021-11-04 14:48:47AI云资讯1540
随着行业数字化、智能化不断升级加速,语音交互场景从生活扩展到企业应用,从人机交互扩展到人人交互,越来越多样化的需求,对语音交互技术提出了更高的要求。
11月4日,在2021腾讯数字生态大会云智能专场,腾讯云小微与腾讯AI Lab联合发布了全新技术品牌——腾讯语音智能,为设备提供在复杂语音环境下,从输入到输出交互体验全面升级的全链路的AI+声学技术解决方案。
腾讯语音智能让语音技术更好地处理复杂多变的环境,为用户提供更加自然、智能、拟人化的语音交互体验,为产业提供更加便捷、低成本、可定制的解决方案。在生活、服务及生产等场景,在智能家居、车载语音交互、智能客服、语音质检、口语考试、司法转写、会议转写等领域都有广阔的应用空间。
顺应场景、需求、设备升级趋势 全面助力更自然的语音交互体验
本次大会上,腾讯首次公布了云智能战略架构,面向管理者、生产者、开发者和用户四类人群,提供决策、协作、创新和服务四大核心能力,同时依托人工智能、大数据、云计算和物联网的云智能架构,贴合客户的产业场景需求,输出面向各行业的智能综合解决方案。腾讯语音智能作为腾讯云智能战略重要技术能力支撑,始终坚持“服务于人”的价值理念,为用户带来自然的语音交互体验,让智能交互科技的发展惠及生活、产业的方方面面。
从手机助手、智能家居、车载交互等满足大众需求的应用,到智能客服、会议转写等智能化升级下的行业性需求,从人机交互到远程会议语音降噪、口语翻译等人人交互场景需求,目前,语音交互的场景和需求在不断增加。随着专用芯片的出现和端上计算能力的不断增强,运行载体扩展到了云、端、芯多种形式,搭载语音交互的设备也变得更为多样化。
而现有的技术方案仍有很多问题难以解决。比如,在复杂、嘈杂场景中容易受到环境噪音的影响,不能有效识别和分离出目标人物语音,还会受到网络情况、麦克风等硬件设备的制约,导致智能终端在与用户的交互过程中,无法快速准确地进行识别并做出相应的回复,阻碍人机交互体验的提升。
腾讯在语音智能领域拥有深厚的能力积累,目前,腾讯语音语义有超过3400项专利,发表超过500篇顶会论文,累计服务3.5亿智能终端。腾讯云小微依托其强大的语音智能能力,结合腾讯AILab领先的AI基础能力,基于对用户场景及需求的深刻洞察,完成了一次技术迭代与升级,联合打造出了一款能够提升语音识别效果和效率的全链路AI+声学技术解决方案——腾讯语音智能。

(腾讯杰出科学家、AI Lab副主任兼智能平台部副总经理 俞栋)
突破业内技术瓶颈 深耕行业发展需求 全面提升语音智能交互能力
相对于传统解决方案,腾讯语音智能在技术上实现了突破性升级。通过采用一体化的基于全神经网络的方案,极大提升了在复杂场景下语音采集、降噪分离和增强的效果,从而为人人通话或机器识别提供了更清晰易懂的语音。通过使用基于语音语义联合优化的多领域识别器,让机器对于各种复杂语音的识别率也得到极大提升,可以更好地进行转写、理解、和回复。
另外,腾讯语音智能可以支持多种应用场景和设备,拥有优秀的场景适配性和通用性,面向实际场景的定制优化更简单、高效,在为用户提供更加优质、自然语音交互体验的同时,也为企业场景中的语音服务需求降低了运行和定制成本,助力其降本增效,加快产业数字化升级。
在户外、酒会等高噪声、嘈杂的环境中使用手机助手、智能客服等语音服务时,环境的噪声会对目标人物语音的收集带来极大干扰,语音收集反馈的错误率也会随之提升。腾讯语音智能在前端技术上,通过研发全神经网络波束成型方案、构建集合全链路的神经网络模型方案、首创用三种模态进行语音分离的工作模式,完成了行业内的多项技术突破,可有效应对环境噪声干扰人声的问题,实现了场景深度定制,多模块自动联合优化,在复杂声学环境中大幅度降低了语音收集的错误率。数据表示,经过多模态语音分离再进行语音识别,错误率可降低相对50%,经过多模态分离并联合进行多模态的语音识别,错误率可进一步降低相对25%。

(腾讯AI Lab语音技术中心总监 苏丹)
在家居和车载等真实场景下,除了需要克服环境噪声、人声干扰等问题外,还需要应对多种挑战,诸如识别任务复杂度高,用户口音多变、用户更自然的语音交互体验需求,以及低资源设备上识别性能的提升等。深入问题探索,腾讯语音智能在后端处理环节研发了“语音-语义结合的多领域在线识别系统”、“全双工交互及闲聊拒识”、“端到端高性能离线识别系统”等技术方案,运用深度学习建模、前后端联合优化、语音-语义联合优化等技术手段,很好地满足了不同应用场景下,对于语音交互在识别率、鲁棒性、资源消耗和用户体验等多方面的要求。
目前,腾讯语音智能已经为索尼电视、飞利浦电视提供技术支持,为家居场景中的人机互动提供更智能的语音体验;在车载交互领域,助力长安汽车、福特汽车等,提升语音助手服务质量,给用户更好的智能出行服务。

(腾讯智能产品高级专家 马龙)
未来,随着行业和场景需求的迭代升级和智能终端的快速发展,智能语音的应用将拥有越来越大的发展空间。腾讯语音智能将持续专注语音智能技术,发展连续对话、多模态交互等能力,为用户构建更具个性化、更自然、更有情感的语音交互体验,以“交互智能”为大众带来更加智能化的生活方式。
相关文章
- 腾讯云与阶跃星辰达成战略合作,共塑大模型时代智能座舱新体验
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- TINNOVE梧桐科技与腾讯音乐共建座舱AI“声学创新实验室”正式挂牌
- 腾讯公司与浙江大学达成深度合作,共建联合实验室培育硬核技术人才
- 腾讯会议发布“天籁智联”协议,面向硬件生态伙伴全面开放
- 腾讯音乐与长安汽车打造首个座舱AI声学技术研发中心 推动车载音频体验迈向生态协同
- 腾讯云与赞同科技深化金融科技合作——技术研讨凝共识 装机实操促落地
- 从Agent 浪潮到组织变革,腾讯云携手业界专家共探OpenClaw时代的安全边界与企业进化
- 腾讯云TVP走进招商局,共探具身智能与 Agent 协同演进新路径
- 新经济企业TOP500连续六年发布,腾讯五年蝉联榜首、比亚迪首进前三
- 腾讯云发布ADP Agent Portal:企业级智能体统一纳管、高效运营
- 腾讯云与聚水潭战略合作 助力电商SaaS全链路智能化与全球化升级
- 大模型智能体行业元年来临,腾讯/阿里/微美全息集体锁定AI+Agent高增长赛道!
- QQ开启AI社区运营新时代,腾讯频道Skill正式上线
- 网络媒体论坛郑州启幕,腾讯以AI为纽带,共建向上向善数字生态
- 腾讯云吴运声:构建实用、可靠、易管的企业级Agent平台,让AI人人可用
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









