依图科技声纹识别权威竞赛夺冠，智能语音再下一城-AI云资讯

在奥地利召开的机器语音国际顶会 InterSpeech 2019 上，国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Challenge（VoxSRC）公布最新结果，依图科技大幅领先海内外多支强队获得冠军，再次展示了世界级人工智能算法实力。

不仅如此，依图团队使用小数据就取得了优于其他团队使用大数据得到的结果，充分表明中国声纹识别技术已达世界领先水平。

依图团队（logicworld）在全球权威声纹识别竞赛 VoxSRC 2019夺冠，等错误率（EER）0.0098，大幅领先第二名。

声纹识别为什么难？

声纹识别是一种通过声音判别说话人身份的技术。如果说语音识别是让机器判断「说了什么」，那声纹识别就是判断「是谁说的」，用于解决生物身份的确认和识别。

2012 年以来，深度学习技术逐渐进入声纹识别主流，这种方法纯粹采用数据驱动的方式，通过海量数据样本和深度神经网络模型，让机器自动去发掘声学特征中说话人的信息差异，从而「学会」声学特征中的说话人信息表示。

很显然，使用基于端到端深度学习的方法做声纹识别，拥有大量声纹数据样本，就有了无可置疑的优势。

目前，声纹识别应用还处于探索阶段，但其应用前景十分广阔。最容易想到的，比如会议录音的音频转录，在结合了声纹识别技术后，就能自动标注出谁在什么时候说了什么，轻松完成多人会议纪录，大幅提高工作效率。

随着技术的不断成熟和融合，声纹识别技术将逐渐融入日常生活，根据不同应用场景的特点进行针对性开发，将产生巨大的应用价值。

VoxSRC：声纹识别界的 ImageNet 竞赛

VoxSRC 是由英国牛津大学、韩国互联网巨头 Naver、斯坦福国际研究院（SRI International）和 MIT 的研究者联合发起的全球声纹识别竞赛，可以说是「声纹识别界的 ImageNet 竞赛」。在很大程度上，VoxSRC 结果反映了全球声纹识别技术最高水平。

VoxSRC 基于开源数据集 VoxCeleb，由牛津大学团队于 2017 年发布，后来逐渐扩充，现在是声纹识别领域规模最大、标注最完备的开源数据集之一。

VoxCeleb 来自 YouTube 名人采访视频，包含了 7000 多个不同种族、性别、口音、职业和年龄的说话人，在不同场合下超过 100 万段的说话声（utterance），时长加起来总共超过 2000 小时（每段音频的长度从 3 秒到 20 秒不等）。

除了数据量大且来源多样化，VoxCeleb 的音视频基本都含有背景噪音、笑声、重叠的说话声和其他杂音，非常考验算法的实战水平。

牛津大学发布并维护的VoxCeleb数据集是目前全球规模最大、标注最完备的开源声纹数据集之一，数据来源多样且都来自无约束场景，非常考验算法的实战水平。

此外，VoxSRC 的测试数据集是「盲的」（blind），即没有任何标注。这些数据无法用来训练或调整系统，确保了比赛结果的公正与准确（不会出现有团队过拟合数据的情况）。

今年的 VoxSRC 吸引了海内外多支队伍参与，有约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等知名高校和研究机构，也有平安科技、NEC、君林科技等大企业。

竞赛的任务很明确，就是判断两段音频是出自同一个人，还是来自两个不同的人。算法的输出结果用等错误率（Equal Error Rate，EER）来衡量。

EER 是衡量声纹识别算法系统综合性能的重要指标，EER 值越小，系统的性能就越好（雷锋网）。

什么是EER、FAR、FRR？

评估算法系统性能时常输出ROC 曲线，用于描述FAR（误识率）与FRR（拒识率）之间的关系。

简单说，在声纹识别中，误识率就是“把不应该匹配的声纹当成匹配声纹”的比例，拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

在对安全要求非常高的应用场景，就会把FAR值设置得低一些，因为判断错一次的代价很大，但这样做的同时会导致FRR值上升，用户体验度下降。

等错误率（EER）是系统的误识率（FAR）和拒识率（FRR）相等时的错误率，即ROC曲线与45度角直线相交的点，是衡量声纹识别算法系统综合性能的重要指标。EER数值越小，系统性能越好。

为了评估数据量（训练样本多少）对系统性能的影响，这次 VoxSRC 竞赛给定了两种情况，一是固定数据集，另一个是无约束数据集。

固定数据集任务，参赛队伍使用的训练数据集是固定的，也即 VoxCeleb2，该数据集包含了来自 5994 个不同说话人超过 100 万段的说话声音频。

无约束数据集任务，参赛队伍在训练模型时，可以使用除竞赛测试集以外的其他任何数据，包括未公开发布的数据。

依图团队以 0.0098 的 EER 值获得本届竞赛冠军，也是唯一将 EER 值降低到 0.01 以内的团队。

特别值得一提的是，这个结果比其他团队无约束数据集任务的结果更好（无约束数据集任务的冠军 EER 值为 0.0126）。

中国最好的就是全球最好的

依图已经不是第一次在国际人工智能公开比赛中获得第一。

成立 7 年来，依图在视觉感知、自然语言处理、语音识别、智能决策等多算法领域发展，并且都独占鳌头。这次在全球声纹识别权威竞赛 VoxSRC 中夺冠，是对中国自有 AI 技术能够引领世界的又一个绝佳证明。

今年 5 月，依图发布自研云端 AI 芯片求索（questcore™），旨在提升智能密度，结合世界领先人工智能算法和先进芯片设计理念，同等功耗下的视觉推理性能是 NVIDIA GPU 的 5 倍。

基于求索构建的智能视频分析系统，将原本需要 16 台机柜的方案压缩到 1 台，降低数据中心整体建设成本 50%，运维成本 80%，让 10 万路智能视频解析系统成标配，50 万路成现实，大幅提升基础设施智能水平，为人工智能应用落地和普及奠定了坚实的基础。

8 月 29 日，依图获得科技部正式授牌，承建视觉计算国家新一代人工智能开放创新平台，促进芯片设计与人工智能的融合，同时针对不同业务场景打造一系列定制化芯片，支持智能城市、智慧医疗和智慧金融等行业。

未来，依图将在多算法领域持续投入，多模态技术融合，软硬件协同开发，将世界优胜人工智能算法与行业场景深度结合，推动人工智能应用落地。

依图科技声纹识别权威竞赛夺冠，智能语音再下一城