薛弘扬博士:首先提出视频问答多模态任务研究者,推动AI技术发展实现应用落地
2023-09-12 07:15:25AI云资讯1733
薛弘扬博士是多模态人机交互领域的专家,并于去年12月以合伙人身份加入一知智能,担任虚拟人业务研发团队负责人。薛博士毕业于浙江大学,在2017年与浙大人工智能所赵洲教授一起开创性地提出首个视频问答这一重要的多模态任务,并在该领域取得了杰出的科研成果,然而在薛博士看来,研究成果终将需要载体实现落地才能发挥科技应有的价值,因此在毕业后一直致力于将AI应用于各行各业,让科技变成真正有价值的生产力。

丰硕研究成果,开创视频问答领域先河
自本科开始薛弘扬博士就在浙江大学计算机学院一路耕耘,后进入计算机辅助设计与图形学(CAD&CG)国家重点实验室直接攻读博士学位,并受到何晓飞和蔡登教授的亲自指导。在博士期间的研究成果丰硕,他的勤奋和才华也赢得了各项荣誉的认可,其中包括博士研究生国家奖学金、ARM奖学金以及浙江省优秀毕业生等荣誉称号。
薛博士专注于计算机视觉和多模态相关研究,深度探索3D计算机视觉、图像补全、视频问答等不同的研究方向。其中最引人瞩目的是开篇提到的与赵洲教授联手,共同提出的视频问答这一重要的多模态任务,后来相继创新性地提出一系列创新性的注意力机制,如统一注意力机制和基于语法树上注意力机制的模型等,在视频问答这个领域取得了当时SOTA的研究成果,并在CCF A类期刊与会议上发表多篇论文。这一系列的研究成果为薛弘扬博士后来的职业生涯奠定了基础,近几年已被广泛应用于多个场景领域,实现了科研成果的商业转化。

薛博士正进行研究工作
以AI赋能游戏,打造智能决策新高度
博士毕业后,薛弘扬博士将热情和智慧投入人工智能领域最前沿,即强化学习的研究和应用,并以游戏为载体,探索AI在智能决策中的理论与实践。而且他的众多研究成果都已被广泛应用于网易等知名公司的游戏产品中,为游戏注入了优秀的陪玩机器人和竞技AI,赋予游戏更丰富的趣味性。这不仅在用户粘性和游戏收益上有显著提升,更是节省了传统游戏陪玩机器人开发所需的大量人力和资源。这种方式大幅降低了开发游戏AI的成本,进一步提升整体效能,为整个游戏产业带来了无法估量的价值。
薛弘扬博士也正是在这一期间,开始实现把学术界的最新成果逐渐应用于实际的游戏AI问题中,摸索并构建了一整套落地的方法论和流程。同时,在谷歌于2020年举办的全球AI足球比赛(GRF)中,薛弘扬博士凭借其强化学习算法,成功指导队伍在全世界千余支队伍中取得了令人瞩目的第四名成绩,这再次证明了他在AI领域的优秀实力和前瞻视野,也代表着薛博士一直以来追求的技术与应用的链接更进了一步。

薛博士正在研读文献
数字人算法研究成果引领行业进步
除了探索人工智能在游戏领域的应用,在加入一知智能后的薛博士开始积极投身于数字人产品的相关算法技术研究。其研究内容涵盖了语音驱动口型、人脸生成、人脸融合、AIGC 等多个方面,并且大量的研究成果已经成功转化到公司的数字人相关产品中。更值得一提的是,薛博士在短短数月内,就攻破了目前数字人音唇同步准确率不高的难题。
在数字人产品中,语音和图像两个模态特征的融合与关联能力是决定音唇同步准确率的关键。由薛弘扬博士主导自研的数字人算法模型,可以精准地将不同模态特征进行关联,而且特征关联的模块具备强大的泛化能力,仅需少量数据进行模型训练,数字人便能实现业界领先的音唇同步效果,其同步精度达到了近乎99.9%,超过业界其他同类型产品,这在国内属于顶尖水平。
此外,算法同时具备极高的泛化能力和鲁棒性,能够支持全球一百多种语言,即使在使用外语语音驱动的情况下,数字人的效果也与汉语没有差异。并且该算法还能兼容包含背景噪声、背景音乐的语音,在这些情况下,大部分时候也能合成非常逼真的数字人视频,满足在歌唱等多样化场合的应用需求。不仅如此,该数字人算法还能支持实时交互,能够在用户察觉不到的延迟内,与人进行流畅自然的沟通,达到与真人无异的效果。目前,该创新研究成果已经应用于一知智能的数字人产品中,包含短视频制作、数字人直播等,其效果赢得了业界同行与用户的一致称赞和好评。
一知智能芽势数字人自今年3月推出以来已凭借其独特优势迅速占领市场高地,渠道网络覆盖全国各个省份,为各大品牌赋能。通过与各类企业的深度合作,芽势数字人已在短短几月内实现了多元化业务的拓展和应用,这都得益于薛博士和一知智能团队的创新研发和不断努力。

薛博士和一知小伙伴
推动数字人技术发展,助力社会进步
未来,薛弘扬博士表示将继续致力于数字人相关算法的研究与优化,不断提高数字人的智能性和真实度。他希望通过降低数字人运行成本,使这项技术成为新时代与每个人息息相关的基础设施,让所有人都能体验到数字人所带来的便利。
薛弘扬博士坚信,数字人技术能够有效提高社会整体的生产效率,减少日常沟通所需的成本,从而推动社会进步,作为浙大·一知联合研究中心主任的他也期待有更多人能和自己一起投身于这项具有深远影响的科研工作中, 将智能时代的数字劳动真正转变为促进共享发展、实现人类解放的劳动新形态。
相关文章
- 物理世界智能的优化:从文本思考到多模态思考
- 深耕AI+音视频二十载,佰锐科技多模态行为风险识别跻身行业第一梯队
- 数据的第三种形态:艺恩如何为大模型提供多模态的数据弹药?
- 算力与模型同频共振:天数智芯Day 0 深度适配 SenseNova U1,共筑多模态AI新底座
- 专攻AI供应链治理痛点!多模态SCA智能情报驱动,以AI治理AI实现全域风险可控!
- VPU:多模态AI时代下的视频算力变革
- 海康威视徐习明:聚焦感知多模态大模型,为中国制造业发展服务
- 天数智芯完成Qwen3.5 多模态模型全量适配 全栈技术筑牢生态适配硬实力
- 直击AI多模态媒资痛点!当虹科技荣获浙江省科学技术进步奖
- 小度全系产品将集结亮相AWE 2026,“超能小度”多模态能力成最大看点
- 全球首秀!讯飞AI眼镜亮相MWC,多模态同传大模型与极致轻量化设计 引领智能穿戴新风向
- 合合信息发布多模态大模型文本智能白皮书,破解复杂文档处理困局
- 合合信息发布多模态大模型文本智能白皮书,五大核心能力标准引领复杂文档处理变革
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 三维天地推出多模态数据湖产品SW-DBLake,重新定义AI时代的数据基石
- 从“物理堆叠”到“化学反应”:喜相逢以多模态融合重塑智能驾驶感知生态
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









