科学家设计AI系统从无声钢琴演奏视频中再现演奏声音
2021-02-13 07:44:35AI云资讯1494
据外媒New Atlas报道,想象一个计算机程序能够直观地识别出在无声的钢琴演奏视频中演奏的是哪首乐曲,或许并不夸张。然而, 一个新的人工智能系统却更进一步,以数字方式逼真地再现了钢琴演奏的声音。

这项技术被称为Audeo,由华盛顿大学 的一个团队设计。研究人员使用钢琴家保罗·巴顿的YouTube视频对系统进行了培训和测试。培训包括约17.2万巴顿演奏巴赫和莫扎特等著名古典作曲家音乐的视频帧。
在分析一段无声视频时,所产生的系统首先会观察哪些键被按下的顺序,确定各个音符及其排列方式。也就是说,它还能感知到每个键被击打的力度和被按住的时间--这让它能计算出每个音符的强度,以及它在随后弹奏的音符下面持续的时间长度。它还考虑到了钢琴独特的声学特性。然后,这些数据被转换为一种可以被现有的数字合成器理解的格式。据报道,当该合成器回放音乐文件时,它听起来非常像原始的钢琴音乐。
在对Audeo的测试中,它的任务是根据巴顿演奏的静音视频重现钢琴音乐,而不是系统所训练的音乐作品。当SoundHound等音乐识别应用分析这些再现时,它们能够以大约86%的准确率识别出乐曲。相比之下,当这些应用分析相同视频中的原始钢琴音频时,其识别准确率攀升至93%。随着技术的进一步发展,这种差距应该会缩小。
“我们希望我们的研究能够实现与音乐互动的新方法,”该研究的高级作者EliShlizerman副教授说。“例如,未来的一个应用是,Audeo可以扩展到虚拟钢琴,摄像头只记录一个人的手。此外,通过将摄像头放在真实的钢琴之上,Audeo有可能协助教学生如何演奏的新方法。”
相关文章
- 阳台储能开创者疆海科技完成数亿元 B 轮融资,押注 AI 时代的家庭能源中心
- 开源!鲸智百应升级,浩鲸科技重新定义企业AI原生
- 万兆AI惠商 联通美好未来 ——中国联通东莞市分公司5・17 电信日暨联通客户日活动圆满举行
- 中国联通在北京地区携手华为发布3000M宽带新产品,全光臻宽带矩阵为“双万兆AI提质行动”添砖加瓦
- 超显商城整合核心GLED显示技术,开启显示设备AI定制新模式
- 博大数据荣膺“全球AI生态基石大奖”,夯实融合算力基础设施服务商领先地位
- 全国人工智能发展大会 AI HANGZHOU 2026中国(杭州)国际人工智能展览会
- 酷开发布企业AI操作系统 开启硅基管理新时代
- 酷开AIOS:定义“企业AI操作系统”的野心与挑战
- 华为超千兆新品亮相山西!三频Wi-Fi 7+AI 焕新智慧家庭新生活
- 辽宁与华为联合发布超千兆三频Wi-Fi 7+AI 新品,共筑辽沈智慧家庭新生活
- 亿达科创亮相国际人工智能展再获AI大奖
- 花旗银行报告称,台积电在AI领域的主导地位不会受到英特尔威胁
- 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局
- 与AI同行 3000M助力 共创智家新生活——中国联通品牌与产品辽宁宣传推广会 全面启动联通社区惠民行系列行动
- 以创新设计重塑 AI 路由未来,MOVA LINCO X1 Pro 荣膺红点奖
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代









