当声音和人形都能通过AI合成，我担心的却是安全性问题！-爱云资讯

首页人工智能技术正文

一直被传闻将支撑不下去的锤子科技在11月6日举行新品发布会，其中AI智能音箱是这场发布会三款重磅产品中，唯一一款与科技数码搭边的科技硬件产品，智能音箱依托于语音交互系统，能够识别用户每句话的基本含义，未来的发展目标是能够理解人类的情绪语言，听起来似乎科技能够让产品更加灵活。

锤子科技本场发布会的音箱被命名为“大卫和希瑞D1”，这款智能音箱搭载的是猎户星空的语音交互系统，虽然猎户星空的负责人——傅盛没有到发布会现场，但罗永浩还是放出两段傅盛对于这场发布会的祝福，而其中一段的祝福语是凭借AI技术利用傅盛的录音合成指定的几句话，罗永浩在发布会现场询问大家能否分辨出哪一段是傅盛的真声时，还是有很多人没能分辨出来。

罗永浩透露自己去年到高德地图录制语音导航的时候，大约需要采样一万句左右的录音，如果现在想要达到和去年同样的水平，只需要采样一千句左右就可以实现，同时罗永浩也表示不久的将来，这种AI合成技术可能会更加廉价，用户将一段录音上传至此类网站，AI机器很快就可以学习到这款录音的语音语调，同时能够用同样的语音语调阅读指定的文字语言。

罗永浩认为这种技术可能还需要再等一两年左右的时间，然而锤子科技的新品发布会刚刚结束，一直专注于AI语音识别技术的科大讯飞就放出一张海报图，表示自己品牌旗下的讯飞阅读已经能够实现罗永浩所说的通过10句录音模拟相同人声阅读指定文字，而这种技术也并不是当今最牛的技术，因为正在浙江乌镇举行的第五届世界互联网大会上，搜狗亮相了一项更牛的AI合成技术——AI合成主播。

通过AI合成技术不仅可以合成声音，而且还能够合成指定的人形，这项技术是由搜狗和新华社联合开发的技术，被命名为“搜狗分身技术”。与普通的机器人相比，这种技术能够通过对人脸结构扫描、人脸特征提取以及人脸重构等方式进行人物合成技术，而更细微的前沿技术还有唇语识别以及情感迁移能够让AI合成的人形更加灵活，包括说话的嘴唇动作以及面部表情都能与真人实现几乎一样的效果。

搜狗公司官方认为这种技术的实现目前主要应用在媒体领域，通过这种创新的信息传播形式，帮助传统媒体在新闻的时效性以及跨语种传播方面能够得以加强，目前这样的技术当然还不够成熟，未来这些技术还将会被应用到医疗、教育、娱乐以及法律等多个行业领域，其主要目的是为了进一步提升社会服务的效率。

AI人工智能技术的发展却是让很多领域的服务都更加便捷，但与此同时也带来一些问题，人们对于AI合成技术的看法多数是认为将会引领一股失业潮，但羽度非凡第一时间想到的是网络安全问题，如果这种AI声音合成技术的成本降到足够低，真的像罗永浩所说只需要将一段录音上传到网站即可交给机器学习并进行模拟，那是否意味着只需要通过电话等方面进行录音之后，就可以交给机器学习并模拟出任何指定文字呢？

这种技术不仅仅是对于声纹支付的安全性增加考验，同时对于诈骗等犯罪行为的成本可以也会有所降低，因此在AI合成技术高速发展的同时，相应的安全防御技术也必然是需要各家科技公司需要考虑的另一问题。