谷歌AI探索无障碍沟通

2019-05-12 16:45:59爱云资讯

Steve Saling 罹患肌萎缩性脊髓侧索硬化症(ALS)已有 13 年光景,这是一段人生大门逐渐关闭的过程。

ALS 俗称渐冻症,发病后肌肉僵硬,抽搐,造成说话或吞咽困难,再逐渐到手臂和腿部无力,最终失去自主控制运动的能力。英国著名物理学家霍金即患此病。Steve Saling 与人交流,是通过眼球追踪技术来控制计算机上的虚拟键盘打字,沟通十分低效。

图 | 渐冻症患者 Steve Saling(来源:YouTube)

如今,在新技术的帮助下,他在观看运动赛事的精彩瞬间时,竟然可以发出欢呼。只不过,声音是通过脸部表情控制机器发出的。通过加入谷歌的 Project Euphonia 项目,Steve Saling 可以自主训练机器学习模型,当模型更了解他的面部表情,不出声即可操作 Google Home。

图 | Steve Saling 正在自主训练机器学习模型(来源:YouTube)

在 2019 谷歌开发者大会上,失聪设计师 Elise Roy 与谷歌科学家、哈佛教授 Michael Brenner 共同宣布 Project Euphonia 项目。Michael Brenner 博士确信 AI 技术能解决 ALS 患者这一特定的语言障碍问题,但同时也需要大众的协助,提供更多的声音样本供模型训练。

图 | 谷歌 Michael Brenner 研究员(来源:YouTube)

生活中的方方面面都涉及到与他人沟通,以及被他人理解。

想象一下,如果旁人难以理解我们的说话或表达方式时,生活会变成什么样,是不是会感到不便和心情沮丧?

然而,对上千万的中风、ALS 、多发性硬化、创伤性脑损伤和帕金森氏症等神经系统疾病而产生语言障碍的人士来说,这就是他们每天都必须面对的情况。

造成语言障碍的成因有很多,有些是听力受损,有的是脑部控制语言的神经系统受到创伤,还有的是脸部肌肉不受控制,导致发音模糊,含糊不清。

非营利组织 ALS-TDI(美国 ALS 研究机构)的临床团队在过去几年中发现,即使有严重发音障碍(语言障碍)的 ALS 患者,也可以被亲密朋友和家人理解。这说明,只要有足够多的声音样本,AI 可以学习如何解释受损的声音。

看到这一技术实现的可能性后,谷歌在 2019 开发者大会上推出 Project Euphonia,计划用 AI 来了解语言障碍者的讲话方式,例如含糊不清、不完整的讲话,从而实现精准的语音转写。

此项目的声音样本主要通过与 ALS-TDI(美国 ALS 研究机构)与 ALS Residence Initiative(ALS 住宅计划)合作获得,录下 ALS 患者的声音,然后将录下的语音转成声谱图,或以更视觉化的图像方式来呈现声音。接着计算机用转录的声谱图拿来训练模型,以更准确辨识这类非典型的语音。

目前设计的 AI 模型是以典型的 ALS 相关障碍的英语人士为目标对象,相信不久后这项研究将可应用到更大范围的不同语言障碍人群。

图 | 谷歌语音研究员 Dimitri Kanevsky(来源:YouTube)

谷歌语音研究员 Dimitri Kanevsky 是一名听力障碍者,幼年失聪后才开始学的英文,他的主要语言障碍是发音不标准,吐字模糊。

谷歌的语音转录程序显然无法对非标准发音的句子进行高精确识别。于是 Kanevsky 研究员录入了 15000 条自己的语音数据来对模型训练,起初效果并不明显,但在他的坚持下模型终于有了不错的表现,程序可以很准确识别他的声音,适应了他讲话的方式。

不同语言障碍的人群所需要的技术不同,技术实现的难度也不同,但最终实现的效果是一样的,理解和被理解。这是人类沟通的快乐源泉。

目前谷歌的 Live Transcribe 转录技术也可以作为听障人士的辅助交流工具。

图 | Live Transcribe 转录过程

此次谷歌开发者大会上,谷歌也推出了 Live Relay 功能,可以让设备在语音和文本之间进行转换,语音信息实时转化成文本,并且以语音的形式转换回来,可以帮助听力障碍或失聪人士打电话。

Live Relay 是系统中原生功能,不需要联网就可以在终端上运行,因此能确保通话的隐私性。

虽然 Live Relay 还在早期研究阶段,不过谷歌对 Live Relay 的长期发展十分乐观,这项技术不光是给语言障碍人群提供方便,未来所有用户都能因这项服务受益。比如,很多用户都曾有需要接听重要电话,但无法离开当下手边正在进行的事项的经历,在 Live Relay 的帮助下,用户不必实际与对方交谈,也能随时随地通过输入文本的方式接听电话,甚至可集成即时翻译功能,让用户能与世界各地的人通话,完全不必担心语言隔阂。

谷歌 AI 在语音识别和转录技术上已达到非常领先的水准,虽然在理解语言障碍者的发音和讲话方式还在探索中,但这无疑是离终极目标——无障碍沟通最近的一次。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023