探究百度输入法日均语音请求破10万的底层密码

2020-03-26 13:19:51爱云资讯

原标题:探究百度输入法日均语音请求破10万的底层密码

过去几年,语音技术迎来大爆发,不仅为海量物联网设备提供了新入口,还在不断推动移动设备输入法的变革,依托语音的便捷的交互方式,输入法里语音输入正悄然改变着用户与设备交互的模式。

这个趋势也体现在百度输入法最近公布的一份数字里,根据其透露的数字,自1月25日春节假期以来,百度输入法日均语音请求量已破10亿次大关,再创行业历史新高。

如果翻一下历史,百度输入法的语音请求数量过去一年多的时间里几乎实现了一倍的增长。2018 年年底,百度输入法语音日均请求量峰值为 5.5亿次,一年后的 2019 年年底,这个数字变成了 8.6 亿次,仅仅三个月,这个数字变成了 10 亿次。

这一系列数字所反映的,不仅有用户对于语音输入的热情,也有百度输入法的受欢迎程度。与此同时,这些数字也给行业留下几个命题,比如,当众多公司开始踏入语音和语音输入,百度输入法为何能脱颖而出?再比如,百度在 AI 领域的技术积累和产品布局,如何推动这款亿级用户产品成为输入法领域的领先者?

1. 技术攻关:破解语音识别的注意力模型难题

在语音领域,注意力模型(Attention模型)长期以来被认为是破解语音难题的关键技术,这是一种基于对一句话里每个音节或汉字音频特征的机器学习模型,通过机器学习的方法,将音频特征自动挖掘出来。

探究百度输入法日均语音请求破10万的底层密码

换句话说,这种方法下的语音识别过程,变成了一个字一个字的滚动生成过程。相比于传统语音识别的状态建模和按语音帧进行解码,该模型可以直接实现语音和文本一体化的端到端建模,是学术领域认为最具精度的模型。

但这个技术长期以来无法得以大规模应用。

究其原因,一方面,搭建这个语音模型无法摆脱云端/服务器的解码能力,这意味着,当用户通过语音交互时,语音需要上传到云端,这对于移动设备的用户体验影响非常大。另一方面,传统的注意力模型无法应对语音识别的错误传导,反映在用户体验上的感受则是,用户用语音说完一段话后,机器由于一个词或一句话没识别出来而完全理解不了,同样严重影响用户体验。

2019 年,百度提出了流式多级的截断注意力模型 SMLTA (全称为「Streaming trancated multi-layer attention」),正是要解决这个问题。

探究百度输入法日均语音请求破10万的底层密码

技术层面,百度利用 CTC 语音识别算法,对连续语音进行自动截断,然后在这一系列语音小段的基础上搭建注意力模型,与此同时,还创新性地引入了一种特殊的多级 Attention 机制,可以实现特征层层递进的更精准的特征选择。

而在行业层面,百度不仅是在业界第一次提出了流式多级的截断注意力模型 SMLTA,也在全球范围内,实现了基于注意力模型的在线语音识别服务的首次规模化应用。

百度将这种注意力模型部署上线到语音输入法全线产品,对于提升百度输入法的语音输入体验有重要意义。

其一,利用精准度更高的语音模型,极大提升了在线语音输入的准确度,官方透露的数字是,2019年百度输入法在线语音相对准确率提升15%,超越行业最优竞品15%;其二,SMLTA 也同时应用于离线语音识别,提升其离线语音的识别精准度至在线语音同样水平,这意味着,用户在没有网络的情况下也可以实现同等的语音输入准确度,目前百度输入法「离线语音」输入准确率已高于行业平均水平35%。

2.AI 赋能产品:从语音、自然语言到图像提升体验

在单语言语音输入之外,各个输入法产品还会提供中英文混合语音输入,不过由于中英文语音识别机制的不同,这个功能会一定程度影响中文识别准确率,而百度输入法则通过「中英自由说」解决了用户的这个痛点。

探究百度输入法日均语音请求破10万的底层密码

百度输入法语音输入

这个功能基于百度在语音语义的技术积累,可以精准识别出中英文混合输入过程中的中文与英文,然后根据语义进行断句,从而可以准确生成用户语音输入的内容。

与之类似的一个功能就是「方言自由说」,百度输入法将普通话和六大方言融合成一个语音识别模型,实现了方言与方言、方言与普通话的混合语音输入。目前也是首个实现方言免切换语音输入的输入法产品。

如果说领先业界的语音模型为百度输入法语音功能提供了最底层的技术支撑,那么在用户体验与产品功能上,百度的自然语言与图像技术积累也在持续赋能百度输入法的创新。

首先是自然语言,百度不断尝试将自然语言技术应用到输入法场景里,其研发的「智能预测」,也成为业内首家实现多场景整句智能预测的输入法。这个功能的核心是利用深度神经网络对输入文本进行建模推出的预测,可以根据用户的使用习惯,在已输入词语的基础上进行长句补全。

目前「智能预测」已经在微信、QQ、淘宝、王者荣耀、绝地求生等场景实现整句预测推荐,还可以根据不同应用与不同场景,提供不同的预测,用户只需打出开头几个字,输入法就能够帮你「输完」整句话,有效提升输入效率。

其次是图像技术,百度输入法里的「拍立活」与「秀场」充分展现了百度在图像领域的技术实力,前者利用对人、动物脸部关键点识别后建立模型,进而通过贴图等技术构建 3D 模型;而后者,则将图像分割技术应用到输入法中,能够将人物置身于虚拟场景之中,两个产品都极大丰富了用户输入的方式。

值得一提的是,百度还利用普通的RGB摄像头,创新性地发布了「凌空手写」功能,这个功能采用指尖跟踪和文字识别两个神经网络模型,整体上接近触屏手写方式的顺滑、流畅,整体识别率已达到大规模应用的要求,目前已经与小天才/小寻手表达成了合作,未来将解决智能手表文字输入体验差的行业难题。

3. 市场认可:数据与产品覆盖

从语音、图像到自然语言技术,在 AI 的加持下,百度输入法的 2019 堪称「开挂」,无论是市场份额还是月活用户增速,都位居行业前列。

探究百度输入法日均语音请求破10万的底层密码

艾媒咨询《2019中国第三方手机输入法市场年度专题研究报告》

这些技术突破所带来的用户体验与产品影响力,也体现在百度输入法的一系列重磅合作中,作为国内智能手机出货量第一的华为,也将百度输入法作为其旗舰手机的默认输入法。

2019 年,华为 Mate 30 搭载的百度输入法,来自百度与机械键盘巨头 Cherry 的合作,通过结合智能手机 X 轴线性马达的特性,这款输入法为华为 Mate 30 系列手机带来了可媲美 Cherry 机械键盘的输入体验。

上月,针对华为全新发生的折叠屏手机 Mate Xs 的特殊形态,百度输入法邀请多名用户手持与折叠屏同尺寸的产品电子设备参与测试实验,模拟真实输入场景,绝大部分常用按键都落在舒适区,在集中键位布局减少手指移动距离的同时,又为左右两边留出足够空间避免手指误触设备边缘。

探究百度输入法日均语音请求破10万的底层密码

华为发布Mate Xs预装百度输入法使用展示

此外,百度输入法还将空格键拆分为左右两个,以便左右手轻松点击,如若用户选择9键分离键盘,也可根据个人情况选择左手或右手的布局模式。

4. 写在最后,当输入法进入百度擅长的 AI 赛道

很长一段时间里,中国科技公司对于工具类产品的评价都不高,认为其技术含量和用户粘性不高,但输入法既是用户每天使用的高频工具,具备相当大的用户粘性,同时也是特定阶段行业技术的集大成者。

从 PC 时代单纯拼词库到移动互联网时代主要拼体验,再到如今 AI 时代全面拼技术,输入法竞争的背后,俨然也成为 AI 技术实力的比拼。

站在用户角度去看,他们需要更丰富多元化的输入功能,同时还要更简单的用户体验;而在行业发展的视角,智能手机之外,大量全新形态的计算设备——无论是没有屏幕的物联网设备还是多屏幕形态的智能手机——都需要全新的输入方式。

这是行业发展带来的新机遇,对于百度输入法而言,10 亿次日均语音请求的成绩是过去高速发展的缩影,依托百度在语音、自然语言处理、图像等领域的技术积累和产品布局,在百度所擅长的 AI 赛道上,百度输入法如何在 2020 年代领跑行业,令人期待。 人工智能

相关文章
精彩评论
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明