中国AI又夺一冠!依图刷榜全球声纹识别挑战赛,刷新纪录,大比分夺魁
2019-09-10 13:43:08AI云资讯1511
中国军团,继续刷新全球AI各项竞赛。
这一次,是全球声纹识别竞赛;这一次,是独角兽依图。
VoxCeleb说话人识别挑战赛,简称VoxSRC,近日正式公布结果。

在这场汇聚了中外语音领域顶级高手的挑战赛中,依图(logicworld)以绝对领先优势斩获冠军。
而且挑战赛比拼内容,正是当前语音识别领域最高精尖的“声纹识别”赛道。
之前依图已经展示了视觉感知、语音识别和语义理解等方面的不俗实力。
现在,依图则进一步用一个前沿技术领域的全球冠军,展示了其技术深度之外,在广度方面的开拓。

真是依图出没,气势汹涌。
依图又夺何冠?
VoxSRC,由来自牛津大学,斯坦福国际研究院和麻省理工的学者组织举办。

参赛者包括约翰霍普金斯大学、法国国家信息与自动化研究所、日本电气(NEC)等传统豪强,也有中国的清华大学,天津大学,中山大学,依图科技,平安科技等学校企业。
选手都有备而来,比拼直接而激烈。
指纹识别,人脸识别已经被大众所熟知,但同样作为生物信息识别的一种——声纹识别(即说话人识别),目前还是技术挑战的前沿,常在科幻电影中出现,也常被语音AI公司当展望谈及。
声纹识别权威评判标准不多,但真正检验技术的,VoxCeleb说话人识别挑战赛可能算一个。
其主要考核,是运用AI技术如何能够从自然语音中识别出说话人。
比赛采用的训练数据集为VoxCeleb2,由牛津大学发起提供。这一数据集中的音频全部采集自YouTube,场景包括明星红地毯、名人演讲、真人节目访谈以及大型体育解说等,包含了5994位名人的超过一百万条语音。

这些名人涉及不同的性别,种族,口音,职业和年龄,并且音频中存在各种各样的背景噪声,包括环境突发噪声、背景人声、笑声、回声,室内噪声和录音设备噪声等等。
比赛的测试集则全部没有标注,属于“盲测”,保证了竞赛的公平与公正。

面对如此挑战,想让AI准确提取声学特征、说话人特征,并实现准确的识别匹配,并非易事。
在发表于Interspeech 2018的论文中,VoxCeleb2的作者牛津大学Visual Geometry Group实验室训练出的ResNet-50达到了3.95%的等错误率(EER),超越了当时的基线方法。
而就在这场比赛中,依图不仅大幅刷新该纪录,将EER压缩至0.98%,还超出第二名(1.42%)一个身位,以绝对优势夺冠。

毫无疑问,这是一次技术实力的肌肉展示。
但如果熟悉依图业务,就可能忍不住想得更多。
依图参与全球声纹识别竞赛,又怎会是为了刷榜而刷榜?
技术“冗余”,增强场景化落地
从声纹识别本身来说,作为生物识别技术的一种,应用前景原本就非常广阔。
在个人信息加密领域,更能发挥重要的作用。
作为一种生物识别解决方案,声纹识别在金融等对个人信息安全有高要求的行业当中,也能够提供更高的安全性,强化风控能力。

此外作为智能语音应用落地的更大挑战,声纹识别的攻坚,对于性别年龄画像、语种方言识别,进而做到真正的语音交互千人千面,都是绕不过去的核心问题。
而且随着AI在各行各业的场景化落地越来越普遍,技术冗余,针对不同问题提供不同解决方案,也在成为AI公司竞争力的核心要求。
在各项技术上有实力、有储备,才能发展、落地更全面。
也就意味着,AI公司下一阶段发展,深度和广度,都得兼备。
AI公司的深度&广度
这或许也是依图目前发展开拓的背后思路。
之前,依图被人熟知,更多是“CV四小龙”的并称,强调其在视觉领域的地位。
依图也确实在多项视觉国际比拼中斩获冠军。比如依图连续三年参加美国国家标准技术局(NIST)人脸识别供应商测试(FVRT),连续三次斩获冠军。
在安防、金融和医疗领域,依图的AI视觉能力,也赢得了真实业务场景的认可。
但2018年以来,依图开始展现出强大的“泛化”能力,开始将AI技术打通,并迅速在拓展领域取得核心突破。
在语音领域,其语音识别算法在全球最大的开源中文数据库AISHELL-2上字错率仅3.71%,大幅刷新纪录。
在NLP方面,依图联合广州妇女儿童医疗中心等机构,将自然语言处理(NLP)技术应用于儿科疾病诊断,成果登上《自然·医学》(Nature Medicine),这也创下中国AI医学的新纪录。

其后更令业界震动的是,依图低调部署研发,完成了自主AI芯片“求索”的流片、发布并商用,以“算法即芯片”理念,提出智能密度的新理论,为AI场景化落地,提供坐标参考系。

最近一次,由工信部、公安部及网信办三部委指导主办的“中国人工智能高峰论坛”上,依图AI芯片不仅获得了AI创新之星,依图也在首届多媒体信息识别竞赛中,于11个任务中,斩获10个A级,为所有参赛者中夺冠最多。

所以,依图路径、依图模式,也是时候值得更多讨论了。
这种模式在科技创业的历史中并不陌生。先有垂直深度,然后平台化迁移,打造技术更为全面、应用更加广泛的大平台。
但在AI历程中,这样既要保证深度又有兼顾广度的事情,依图之外,还无人做到。
所以声纹之冠,或许还不是依图实力的全部。
依图之路,也值得上下求索。
相关文章
- 阳台储能开创者疆海科技完成数亿元 B 轮融资,押注 AI 时代的家庭能源中心
- 开源!鲸智百应升级,浩鲸科技重新定义企业AI原生
- 万兆AI惠商 联通美好未来 ——中国联通东莞市分公司5・17 电信日暨联通客户日活动圆满举行
- 中国联通在北京地区携手华为发布3000M宽带新产品,全光臻宽带矩阵为“双万兆AI提质行动”添砖加瓦
- 超显商城整合核心GLED显示技术,开启显示设备AI定制新模式
- 博大数据荣膺“全球AI生态基石大奖”,夯实融合算力基础设施服务商领先地位
- 全国人工智能发展大会 AI HANGZHOU 2026中国(杭州)国际人工智能展览会
- 酷开发布企业AI操作系统 开启硅基管理新时代
- 酷开AIOS:定义“企业AI操作系统”的野心与挑战
- 华为超千兆新品亮相山西!三频Wi-Fi 7+AI 焕新智慧家庭新生活
- 辽宁与华为联合发布超千兆三频Wi-Fi 7+AI 新品,共筑辽沈智慧家庭新生活
- 亿达科创亮相国际人工智能展再获AI大奖
- 花旗银行报告称,台积电在AI领域的主导地位不会受到英特尔威胁
- 华为云创想者大会主题论坛议程公布:释放Agentic AI新布局
- 与AI同行 3000M助力 共创智家新生活——中国联通品牌与产品辽宁宣传推广会 全面启动联通社区惠民行系列行动
- 以创新设计重塑 AI 路由未来,MOVA LINCO X1 Pro 荣膺红点奖
人工智能企业
更多>>人工智能硬件
更多>>- 一飞智控携全空间解决方案及三款新品,亮相2026世界无人机大会
- 续航超强的微星全新尊爵系列,重塑轻薄本的超凡全能体验
- BOE(京东方)全球首发原生千帧FHD 护眼电竞显示器 真千帧硬实力引领电竞高刷新时代
- Neousys宸曜发布星宸系列强固嵌入式工控机,赋能工业智能升级
- BOE(京东方)OLED技术赋能联想YOGA Air 14 Ultra 定义超轻薄AI PC新标杆
- iQOO 15T正式发布:天玑9500 Monster版加持 全能体验无短板
- 从“+AI”到“AI+”:天禧AI 4.0加持,联想AI主机领衔L3级终端震撼登场
- 拾年匠音,声来不凡,致敬1000X系列十周年 索尼发布1000X十周年典藏版头戴降噪耳机
人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









