英伟达推出可创作音乐、修改语音的AI模型Fugatto
2024-11-26 10:17:16AI云资讯174985

(AI云资讯消息)英伟达推出了一款新的生成式音频AI模型,它可以根据用户简单的文本和音频提示生成各种声音、音乐甚至语音。
这个模型被命名为Fugatto,又名基础生成式音频变换器Opus 1。根据11月25日的公告信息,它可以仅根据文本提示生成铃声和歌曲片段,对现有曲目添加或删除乐器和人声,修改声音的口音和情感,甚至让人们创造出前所未有的声音。
英伟达应用音频研究部门的经理拉斐尔·瓦莱(Rafael Valle)表示,“我们希望创建一个能够像人类一样理解和生成声音的模型,Fugatto是我们朝着未来迈出的第一步,在那个未来,音频合成和转换的无监督多任务学习将从数据和模型规模中涌现出来。”
英伟达指出,音乐制作人可以使用AI模型快速原型化和审核各种音乐风格和不同编排的歌谱,或者为现有曲目添加效果和额外的音轨。Fugatto模型还可以用于适应和本地化现有广告活动的音乐和旁白,或者在游戏玩家通过关卡时实时调整游戏音乐。
Fugatto模型甚至能够产生以前闻所未闻的声音,如咆哮的小号或喵喵的萨克斯。在此过程中,它使用了一种称为ComposableART的技术来组合它在训练期间学到的指令。
英伟达AI研究员罗汉·巴达兰尼(Rohan Badlani)表示,“我想让用户以主观或艺术的方式组合属性,选择他们对每个属性的强调程度。在我的测试中,结果常常令人惊喜,让我感觉自己仿佛是一位艺术家,尽管我是一名计算机科学家。”
Fugatto模型本身使用了25亿个参数,并在32个H100 GPU上进行训练。像这样的音频AI技术正变得越来越常见。4月份,Stability AI推出了一个类似的系统,可以生成长达三分钟的曲目,而谷歌的V2A模型则可以为任何视频输入生成无限数量的音轨。
YouTube最近推出了一款AI音乐混音器,它根据输入歌曲和用户的文本提示生成一段30秒的样本。甚至连OpenAI也在这一领域进行实验,今年4月推出了一款AI工具,只需15秒的样本音频即可完全克隆用户的声音和发声模式。
相关文章
- 美光为英伟达Vera Rubin平台量产36GB HBM4、28Gbps PCIe Gen6固态硬盘及192GB SOCAMM2内存
- 英伟达发布新一代超分辨率技术DLSS 5:神经渲染加持,颠覆性视觉提升
- 英伟达:将与比亚迪、吉利进行自动驾驶出租车业务合作
- 英特尔在英伟达GTC大会的完美时机亮相:智能体AI将CPU变为新瓶颈
- 英伟达CEO黄仁勋庆祝GeForce 3问世25周年:没有GeForce,就没有AI
- 英伟达发布Nemotron 3 Super开源智能体AI模型:或成为OpenClaw的理想选择
- 英伟达CEO黄仁勋将AI比作一个五层蛋糕,称其潜力尚未被完全发掘
- Teclab绕过英伟达RTX 50显存时钟限制,将RTX 5070 Ti超频至超过36Gbps
- 全力奔赴AI推理时代,英伟达/微美全息大举进军开启空前爆发盛宴!
- 英伟达将推出新款GeForce RTX 5050显卡,搭载9GB GDDR7显存
- 英伟达将向两家光子技术公司注资40亿美元,抢占AI竞争制高点
- OpenAI宣布获得亚马逊、英伟达和软银新融资1100亿美元
- 英伟达的消费级GPU业务面临困境,游戏业务收入环比下滑
- 英伟达Blackwell平台为AI推理工作负载带来全新水平的Token优化
- 三星HBM4高带宽内存正式进入英伟达Vera Rubin人工智能芯片平台
- 英伟达已瞄准台积电1.6nm产能,特斯拉/微美全息加速扩展AI芯片集群生态!









