以科技创新推动产业创新专题 | 5倍提升!ShortDF突破多模态模型质、效困局
2025-09-23 18:32:21AI云资讯1742
当前文生图、文生视频等生成式人工智能技术正得到越来越广泛的应用,但在一些严肃场景中,生成速度和生成质量难以兼顾的矛盾也尤为突出。例如:在服装设计领域,快速生成的服装图案经常出现细节模糊或逻辑错误,如拉链不对称、印花扭曲,无法满足专业设计的精准要求;在电商视频创作中,加速生成的商品展示视频容易出现画面闪烁、物体变形等问题,严重影响品牌形象和消费者观感。
针对这一痛点,中国联通数据科学与人工智能研究院聚力攻关并实现了突破:提出模型推理加速方案ShortDF,突破多模态模型生成效率与质量瓶颈,并赋能多场景应用。
“质”&“效”困局
当前主流的多模态生成模型(文生图/文生视频模型)大多以扩散模型为基础,通过在训练过程中给清晰的图像/视频添加随机噪声,再运用反向去噪规律,实现从指令文本到匹配图像/视频的生成。
通俗来讲就是:先教会模型“画面/视频怎么由正常变混乱”,学习并记住这个过程,然后模型便可照此规律按指令文本“把混乱画面/视频变正常”。其中的去噪过程作为关键核心,可以理解为:从全是噪音的起点出发,按照顺序经过1000个路口,每个路口都要执行相应的去噪指令才能实现整体的生成效果。在这个过程中,如何选择路径决定了生成效率和质量。
现有的路径选择方法主要分为两类:● 马尔科夫链式方法(如DDPM,Denoising Diffusion Models),即按照规定路线循规蹈矩走完所有路口(通常1000个左右),虽然稳妥但耗时长,生成效率较低。● 人工跳步式方法(如DDIM,Denoising Diffusion Implicit Models),凭借经验人为设定抄近道仅走少量路口(通常15个左右)从而实现效率提升,但因为路径缺乏自适应性,容易发生图像模糊或形变等问题。
(ShortDF与传统方案的对比)
ShortDF创出新解法
中国联通数据科学与人工智能研究院提出了一种创新方法——ShortDF(Shortest path optimizing in Denoising Diffusion model去噪扩散模型最短路径优化),可在路径图中找到合适路径,并做路径压缩。直观来说,就像具备会进化的“智能导航”,不再固定走完所有步骤,也不预设定走哪些步骤,而是动态选择最优路径并做路径压缩,让一步抵多步,从而实现效率和质量的权衡。
(ShortDF方法原理)
提升5倍!保质又提效
ShortDF在多个业界主流基准数据集上均取得了显著性能提升,其中在CIFAR-10数据集上的表现尤为突出:原本需要10步生成的DDIM图像,ShortDF仅用2步即可完成,实现了约5倍的速度提升,同时图像清晰度(FID指标)提升18.5%,对比如下所示:
(ShortDF与现有方法结果对比)
这些实验结果验证了ShortDF在多模态生成任务的高效推理能力,实现了在保证生成质量的前提下推理速度的大幅度提升。凭借这一突破性成果,ShortDF入选CVPR 2025的Highlight论文(全球超1万篇投稿中仅2.97%入选),获得国际人工智能学术界的高度认可,相关论文及代码已开源:[Github:UnicomAI/ShortDF](https://github.com/UnicomAI/ShortDF)。
以科技创新推动产业创新
目前,ShortDF技术已在多种内容生成场景中应用,包括“中华器灵”角色生成平台中的古代文物活化生成、“智衣衿”文创一体机中的汉服人物形象生成、“衣影”平台中的服装款式设计生成等,有效确保了生成质量的同时提升了生成效率,优化了用户体验。ShortDF针对扩散类模型具备通用性,应用空间广泛,适用于文生图、文生视频、图像及视频编辑等多种功能场景。
(汉服人物形象生成)
(服装款式设计生成)
(文物活化生成)
未来,中国联通数据科学与人工智能研究院将继续推动多模态生成技术的优化与创新,解决模型产业化落地的“最后一公里”问题,让高效高质的AI生成技术在文创、工业、教育、医疗等更多领域得到更广泛和深入的应用。让人工智能惠及更多个人及企业,推动人工智能+规模化发展。
相关文章
- ConvoAI&RTE2025 技术专场报名中丨多模态和语音 AI 年度收官大会!
- 快手发布多模态大模型Keye-VL-1.5 8B性能领先、视频理解能力更强
- 声网兄弟公司 Agora与OpenAI 携手 助力多模态 AI 智能体实现实时交互
- 火山引擎多模态数据湖落地深势科技,提升科研数据处理效能
- 千亿市场国产化!紫光汉图X商汤日日新:多模态AI打造“会判作业”的打印机
- Skywork Deep Research Agent重磅升级!带来更多模态、更高质量和更高效的体验
- 商汤大装置 x 铁一院:多模态大模型赋能铁路勘察设计,让70年经验“活”起来
- 深化战略合作,优刻得接入智谱最强开源多模态GLM-4.5V
- 多模态AI融入日常交互 用三星Galaxy手机搭建效率工作流
- 智象未来亮相 WAIC:多模态智能体,重塑创作的未来版图
- 体验焕新!多模态AI邂逅三星Galaxy Z Fold7|Z Flip7
- 三星Galaxy Z系列携多模态AI开启智能生态体验新篇章
- 绝影亮相NVIDIA展台,端侧多模态大模型落地成果显著
- 三星Galaxy Z Fold7升级AI多模态能力 “能听会看”更懂你
- ICCV 2025 | 腾讯优图实验室大模型8篇论文入选,涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等方向
- 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆