喜马拉雅AI音频研究成果再获世界顶级学术会议ICASSP 2022认可由国际音频顶级会议ICASSP(International Conference on Acoustics, Speech, and Signal Processing,国际音频、语音与信号处理会议)联合阿里巴巴发起的ICASSP 2022多通道多方会议转录挑战赛(M2MeT)落下帷幕,喜马拉雅智能语音实验室和中国科学技术大学合作,在说话人日志赛道获得第三名。3年前1432
深透医疗全新AI手术介入造影产品获NIH科创基金,完善产品矩阵2月16日消息,AI医学影像领先公司深透医疗(Subtle Medical)再次获美国国立卫生研究院(简称NIH)科创基金(SBIR),支持其新产品SubtleIR™的研发及产品化。SubtleIR™通过深度学习技术,减少手术介入造影中所需的放射素剂量,仅需原剂量约17%的辐射剂,就能实时获取与标准剂量注射情况下相同质量的医学影像,大大减少患者和医生的辐射暴露危险。3年前936
声网Agora Lipsync 技术揭秘:通过实时语音驱动人像模拟真人说话元宇宙的火热让人们对未来虚拟世界的形态充满了幻想,此前我们为大家揭秘了声网自研的3D空间音频技术如何在虚拟世界中完美模拟现实听觉体验,增加玩家沉浸感。今天我们暂时离开元宇宙,回到现实世界,来聊聊声网自研的 Agora Lipsync(唇音同步) 技术是如何实现无需打开摄像头,无需面部捕捉技术,只需上传一张/多张人脸头像就可以通过说话人的语音音频信号,来驱动静态人脸头像的嘴部运动。3年前1390
人类又输给了AI,这次是玩《GT赛车》游戏今天,发表在《自然》杂志上的封面文章报告称,AI 在赛车对战游戏 Gran Turismo(GT赛车)中战胜了世界冠军级人类玩家。这个 AI 程序名为“Gran Turismo(GT)Sophy”,是一种神经网络驱动程序,它在遵守赛车规则的同时,展现出了超凡的行驶速度、操控能力和驾驶策略。3年前785
媲美人脑能效的类脑突触原型器件问世从中国科学技术大学获悉,该校李晓光教授团队在前期研究基础上,基于对铁电畴形态和翻转动力学的设计,在铁电量子隧道结中实现了亚纳秒电脉冲下电导态可非易失连续调控的类脑突触器件,可用于构建人工神经网络类脑计算系统。研究成果日前表于《自然·通讯》杂志上。3年前1384
AI又对奥数下手 刷题刷出“模考”最好成绩AI 在最不擅长的数学方面,这次大幅刷新了最好成绩。其中关键角色是 OpenAI 给 Lean 做的一个定理证明器。听起来有点耳熟?没错,就是去年参加国际数学奥林匹克竞赛(IMO)的“非人”选手 Lean~3年前910
冬奥史上最特殊火炬手:无人车火炬手首次上线2月2日,北京2022冬奥会火炬接力活动开启,在火炬接力过程中,一个特殊的“火炬手”引起了众多网友的关注。一辆无人车,在其右侧伸出一个火炬把手,举起熊熊圣火,在北京冬奥首钢园区平稳地驶向接力地点。这是奥运历史上首次基于5G无人车实现火炬接力。3年前1455
机器学习(ML)和自然语言处理(NLP)年度大盘点2021 年,ML 和 NLP 领域取得了很多激动人心的进展。在 Sebastian Ruder 的最新博客《ML and NLP Research Highlights of 2021》中,他介绍了自己认为最具有启发意义的论文和研究领域。3年前581
图灵奖得主Yann LeCun最新访谈:人工智能面临的三大挑战在最近一次访谈中,Meta AI 人工智能先驱 Yann LeCun 点出了下一代人工智能技术的三大主要挑战。Yann LeCun(杨立昆)出生于 1960 年,他一直被认为是世界上最重要的人工智能研究者之一。20 世纪 80 年代,LeCun 参与了卷积神经网络的发明,在 AI 领域低潮时期坚持了这一方向,并贡献了工程实践成果,推动了人工智能图像分析技术的突破。3年前1528
现实研究发现人工智能干预信号灯可以明显提升交通效率通常情况下,交通灯会根据预先确定的规则和嵌入在道路上的感应环传感器来改变颜色。然而,根据新的研究,使这些灯变得人工智能化可能会使交通流更快、更顺畅。这项研究是作为德国KI4LSA项目的一部分进行的--它由德国联邦交通和数字基础设施部资助,并包括几个合作伙伴组织。3年前1198
自动驾驶区域超1000平方公里,AutoX领跑RoboTaxi落地1月28日消息,中国RoboTaxi领先企业AutoX(安途)正式宣布自动驾驶区域总计超过1000平方公里,为中国最大自动驾驶范围,展现其RoboTaxi服务迈出大规模落地的坚实一步。3年前1504
阿里 BladeDISC 深度学习编译器正式开源随着深度学习的不断发展,AI模型结构在快速演化,底层计算硬件技术更是层出不穷,对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将算力发挥出来,还要应对计算框架的持续迭代。深度编译器就成了应对以上问题广受关注的技术方向,让用户仅需专注于上层模型开发,降低手工优化性能的人力开发成本,进一步压榨硬件性能空间。阿里云机器学习PAI开源了业内较早投入实际业务应用的动态shape深度学习编译器 BladeDISC,本文将详解 BladeDISC的设计原理和应用。3年前1348
突破1000平方公里 AutoX落地中国最大自动驾驶区域1月28日消息,中国RoboTaxi领先企业AutoX(安途)正式宣布自动驾驶区域总计超过1000平方公里,为中国最大自动驾驶范围,展现其RoboTaxi服务迈出大规模落地的坚实一步。3年前1326
同盾科技“云原生”重大突破,面向全球开源首款云原生缓存技术产品在云原生如火如荼发展的今天,云原生技术已然遍布了互联网的各个应用场景,越来越多的科技公司也开始布局云原生系统。2021年底,同盾科技面向全球首次开源了td-redis-operator产品3年前1133
赋能智能制造,海伯森线光谱共焦传感器破题3D视觉检测相对于2D视觉,3D视觉的技术门槛更高,涉及光学、结构、散热等跨学科领域,再加上芯片、算法构成的复杂系统设计,需要足够的时间投入和高技术人才培养。作为国内高端智能传感器生产制造商,海伯森经过两年多的技术攻关,正式推出了全国首台 3D线光谱共焦传感器HPS-LCF1000。3年前946
百分点感知智能实验室:计算机视觉理论和应用研究计算机视觉(ComputerVision,CV)是人工智能的一个领域,它与语音识别、自然语言处理共同成为人工智能最重要的三个核心领域也是应用最广泛的三个领域。计算机视觉使计算机和系统能够从数字图像、视频和其他视觉输入中获取有意义的信息,并根据这些信息采取行动或提出建议。如果人工智能使计算机能够思考,那么计算机视觉使它们能够看到、观察和理解。3年前1029
科技部公布“十四五”国家重点研发计划专项,腾讯自动驾驶仿真平台提供助力科技部陆续公布了“十四五”国家重点研发计划专项立项信息,由长安大学联合腾讯等单位申报的新能源汽车专项“自动驾驶仿真及数字孪生测试评价工具链”项目获批立项,成功入选国家“十四五”重点研发计划。3年前669
声网推出3D空间音频 模拟声源位置+空气衰减实现元宇宙的“声临其境”声网近期发布了“Metachat 元语聊”、“MetaKTV”解决方案,致力于提供一种全新的元宇宙互动社交、K 歌方式,其中都提到了“3D 空间音频”这项核心技术,对提升玩家沉浸感与听觉体验发挥了关键作用。我们也收到了很多开发者的咨询,今天将为大家带来声网 3D 空间音频的技术揭秘,揭晓这项技术的核心功能点以及背后的技术原理。3年前657
百度研究院2022年十大科技趋势出炉:大模型位列榜首,发展趋向实用化1月25日,百度研究院发布2022年十大科技趋势预测,在高速变化、充满未知的科技世界中,探寻更具确定性的价值与方向。此次上榜的十大科技趋势涵盖了AI核心技术、交叉学科与跨领域研究、AI的产业及社会价值三个层面,包括预训练大模型、AI for Science(人工智能应用于科学研究)、基于AI的生物计算、隐私计算、量子软硬一体化、自动驾驶、深空探测、人机共生、绿色AI和普惠AI等领域。3年前1293
喜马拉雅论文被ICASSP 2022收录 受邀展示自研跨语言语音合成技术喜马拉雅自研的跨语言语音合成创新技术论文被2022年IEEE国际音频、语音与信号处理会议(2022 IEEE International Conference on Acoustics, Speech, and Signal Processing,ICASSP 2022)收录,并受邀于今年5月在新加坡举办的会议上向全球展示相关技术成果。3年前1235