前沿AI技术落地录音笔 科大讯飞获国际说话人角色分离比赛冠军
2021-02-01 07:56:38AI云资讯1108
1月23日,人工智能企业科大讯飞在最新一届DIHARD-3(国际说话人角色分离比赛)中摘得桂冠,证明了科大讯飞AI语音技术在复杂环境下辨别说话人角色的能力全球领先。作为说话人角色分离任务领域最“困难的”挑战赛,第三届DIHARD由美国国家标准与技术研究院(NIST)参与联合主办,参赛研究机构包括约翰霍普金斯大学、南加州大学、牛津大学等顶尖团队。

人工智能语音技术包含多个子领域,包括语音文字转译、TTS播报等等,说话人角色分离的加入让音频记录有了多一维度的价值。例如职场中常常出现的多部门多人会议,通过语音文字转译结合说话人角色分离技术,实现快速产出标注了不同说话人的文字会议记录。
科大讯飞将上述多类型的AI语音技术集成落地在讯飞智能录音笔系列产品中,内置科大讯飞转写引擎——ED新引擎,能够为用户带来更为无缝、高效、准确的多人多语言记录体验。

讯飞智能录音笔支持自动切换纯中文、纯英文识别模式,同时智能识别中英文混读场景,以及普通话与多地方言的混合场景,综合转写准确率高达98%。基于科大讯飞在语音识别领域的深厚积累,讯飞智能录音笔的转写功能支持粤语、河南话、四川话、重庆话、等12种方言转写,并支持藏语、维吾尔语2种少数民族语,同时支持中、英、日、韩、俄、法、越南、西班牙8种语言转写,更支持中英同步互译。
为让用户更高效地利用录音转写内容,科大讯飞大力投入语音识别后处理技术,在转写内容的预处理上进行了重点研发。例如针对多人交谈的会议场景,讯飞智能录音笔支持分离与ASR联合建模的说话人分离方案,说话人分离的准确率达到95%,让用户能够快速检索到各个目标说话人数据,提升内容利用效率。
转写ED新引擎为讯飞智能录音笔带来了创新的离线转写功能,支持用户在无网环境下正常使用语音实时转写功能,准确率仍旧高达95%。离线转写不仅能够保证消费者在无网环境下使用录音笔功能,更满足了部分用户对敏感机密信息的防泄露需求。

前沿技术的商用往往能够带来效率革新,此次科大讯飞联合中国科大语音及语言信息处理国家工程实验室杜俊副教授团队(USTC-NELSLIP),在DIHARD-3的四个任务排行榜上包揽所有指标第一名,领先的AI语音技术积累将通过智能录音笔等产品线为消费者提供更具价值的办公学习能力。
相关文章
- 科大讯飞发布玲珑Agent OS,让AI真正走进企业核心业务流
- 2026中国翻译协会年会召开,科大讯飞携多语言AI翻译产品矩阵亮相并获评5A级企业认证
- 科大讯飞佛山人工智能产业基地正式启用,助力南海构建AI产业生态
- 科大讯飞重磅布局智能穿戴,讯飞AI眼镜开启跨语言沟通新时代
- 科大讯飞AstronClaw升级,引领AI Agent从对话走向执行
- 科大讯飞亮相2026联合国中文日,让语言无界,让文化共鸣
- 打造办公新模式,科大讯飞三大核心“AI+办公”大模型在成都发布
- 科大讯飞AIPC华东制造基地正式投产,软硬智造一体出场即“数字员工”
- 科大讯飞与苏移集成签署战略合作协议,共推具身智能产业升级
- 从硬件集成到软核共研,科大讯飞与北京人形机器人创新中心深化合作
- 科大讯飞与金光集团签约战略合作,携手推动印尼人工智能转型
- MWC 2026 | 科大讯飞全球首发AI眼镜,多款AI产品全新升级
- 科大讯飞AI学习机T90系列重磅发布,开启个性化学习新时代
- 科大讯飞携手天津河西区:探路“人民城市”数字底座,为基层减负增效
- 科大讯飞ANYPIN获2026德国iF设计奖,以隐形科技重塑AI录音新体验
- 科大讯飞将亮相MWC2026,推动安全、可部署AI走向全球行业
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









