失聪者的福音:人工智能读唇语 错误率减半
2018-08-09 11:04:43爱云资讯571
对于数百万失聪者来说,唇读可以提供一个与外界交流的窗口。但这种做法很难,结果也往往不准确。
现在,研究人员编写了一种新的人工智能(AI)程序,其性能优于专业的唇读者和迄今为止最好的AI,且错误率仅为之前最佳算法的一半。如果被完善并集成到智能设备中,这种方法可以让每个人都能懂唇读。
“这是一项了不起的工作。”未参与该研究的英国伦敦玛丽皇后大学计算机科学家Helen Bear说。
编写可以阅读唇语的计算机代码令人抓狂。
因此,在新研究中,科学家向机器学习“求助”,让计算机从数据中学习。
他们为该系统提供了数千小时的视频和抄写本,并让计算机自己解决这个问题。
该项目始于14万小时的YouTube视频,视频展示了人们在各种情况下进行的交谈。
然后,研究人员设计了一个程序,通过每个音素或单词声音的嘴部动作创建几秒钟的剪辑,并带有标注。
该程序过滤掉了非英语语音、非讲话者面孔、低质量视频和未直接拍摄的视频。然后,他们裁剪了讲话者嘴巴周围的视频。
这样产生了近4000个小时的录像,包括超过12.7万个英文单词。
没有参与该研究的美国哥伦比亚大学计算机科学家Hassan Akbari说,这个过程和由此产生的数据集比同类数据集大7倍,对于任何想要训练类似系统阅读嘴唇的人来说都是“重要且有价值的”。
此外,该过程部分依赖于神经网络。
AI算法包含许多连接在一起的简单计算元素,这些元素以类似人脑的方式学习和处理信息。
当研究人员为该系统提供未标记的视频时,这些网络会裁剪嘴巴动作片段。系统中的下一个程序也使用了神经网络,为每个视频帧提供了可能的音素列表及其概率。最后一组算法将可能的音素序列进行整理,并生成了英语单词序列。
经过训练,研究人员用它之前没有看过的37分钟的视频测试了该系统。
他们在发布于arXiv网站的论文中报告说,单词错误率仅为41%。
这个成绩可能听起来并不怎么样,但之前最好的算法——专注于单个字母而不是音素——的错误率为77%。
在同一项研究中,专业唇读者的错误率为93%(尽管在现实生活中他们能参考语境和肢体语言,这有助于读唇)。
这项工作由总部位于伦敦的人工智能公司DeepMind完成,但该公司拒绝就这一记录发表评论。
Bear表示,该程序对音素的理解可能看起来不同,具体取决于之前和之后所说的内容。(例如,在说“boot”中的“t”时,嘴的形状与说“beet”中的“t”不同。)
系统有单独的阶段预测嘴唇形状代表的音素和通过因素预测单词。这意味着如果想教系统识别新的单词,你需要重新训练最后一个阶段。
但她说,这个AI也有弱点:它需要清晰、直白的视频,41%的错误率远非完美。
Akbarni表示,将程序整合到一部手机中可以让听力障碍人士随身携带“翻译”。
这样的翻译也可以帮助那些不能说话的人,例如声带受损者。对于其他人来说,它可以简单地帮助解析各种聊天。
这种技术也可应用于其他程序,例如分析安全视频、解释历史镜头,或在音频下降时听到Skype伙伴的语音。
新的AI方法甚至可以回答世界上最大的一个谜团:在2002年世界杯决赛中,法国足球运动员齐达内因用头部顶撞对手而被红牌罚下。
他显然是被对手的脏话所激怒,但他说了什么?
我们也许可以揭开谜底了。
相关文章
- 人工智能搜索引擎Perplexity的AI语音助手已登陆iOS平台
- 学而思素养携手中国青少年宫协会 开启人工智能科普公益行
- 中国软件行业协会NCT编程考级2025年4月考圆满收官,新增人工智能教育测评体系
- 更能算、更省钱、更懂化工的国产人工智能来了!
- 2025“人工智能+”产业发展大会:开启智能产业新时代
- 云南联通科技创新暨人工智能合作发展大会在昆启幕:科技赋能边疆,智启数字云南新篇章
- 人民出行受邀见证中国-东盟人工智能创新合作中心签约 共启广西智能产业新篇章
- AI赋能,数智创新,慧博云通闪耀2025日本人工智能展览会
- 维基百科将发布专用于训练人工智能模型的数据集,以抵御网络爬虫抓取
- 培生发布智能课程生成器:创新人工智能驱动教师备课方式变革
- OpenAI发布全新人工智能模型o3和o4-mini,首次实现图像思考
- 深度迈进人工智能新纪元,标普云正式更名标普智元
- Meta AI宣布即将使用欧盟用户数据训练人工智能模型
- 英伟达宣布在台积电亚利桑那州工厂投产Blackwell人工智能芯片
- 九章云极DataCanvas入选2025全国企业“人工智能+”行动创新案例TOP100
- 云知声受邀参加2025中国数字经济产业发展大会,携手多方共筑苏州人工智能战略生态
人工智能技术
更多>>人工智能公司
更多>>人工智能硬件
更多>>- 行业首款 TÜV 南德「三防品质」认证手机 魅族 Note 16 系列 5 月 13 日发布
- 神眸开启AI智能摄像机无线时代:全定制芯片方法学+六神守护价值体系,坚守初心普惠千万家庭
- 时尚博主们爱不释手!宏碁非凡Go Air毕竟只有999克
- 未来智能将发布新一代讯飞AI会议耳机 重新定义办公生产力
- 技嘉科技横扫 2025 iF 与红点设计大奖,展现全产品线研发实力
- 玩家福音,RTX 5070加持6999元起,华硕天选6 Pro锐龙版高能来袭
- 【强势上新】HPM5E00:EtherCAT运动控制MCU,先楫半导体再拓工业总线产品新版图
- 荣耀MagicBook Pro 16 2025正式发布:轻薄静音性能旗舰,重塑游戏本体验