以科技创新推动产业创新专题 | 5倍提升！ShortDF突破多模态模型质、效困局-AI云资讯

当前文生图、文生视频等生成式人工智能技术正得到越来越广泛的应用，但在一些严肃场景中，生成速度和生成质量难以兼顾的矛盾也尤为突出。例如：在服装设计领域，快速生成的服装图案经常出现细节模糊或逻辑错误，如拉链不对称、印花扭曲，无法满足专业设计的精准要求；在电商视频创作中，加速生成的商品展示视频容易出现画面闪烁、物体变形等问题，严重影响品牌形象和消费者观感。

针对这一痛点，中国联通数据科学与人工智能研究院聚力攻关并实现了突破：提出模型推理加速方案ShortDF，突破多模态模型生成效率与质量瓶颈，并赋能多场景应用。

“质”&“效”困局

当前主流的多模态生成模型（文生图/文生视频模型）大多以扩散模型为基础，通过在训练过程中给清晰的图像/视频添加随机噪声，再运用反向去噪规律，实现从指令文本到匹配图像/视频的生成。

通俗来讲就是：先教会模型“画面/视频怎么由正常变混乱”，学习并记住这个过程，然后模型便可照此规律按指令文本“把混乱画面/视频变正常”。其中的去噪过程作为关键核心，可以理解为：从全是噪音的起点出发，按照顺序经过1000个路口，每个路口都要执行相应的去噪指令才能实现整体的生成效果。在这个过程中，如何选择路径决定了生成效率和质量。

现有的路径选择方法主要分为两类：● 马尔科夫链式方法（如DDPM，Denoising Diffusion Models），即按照规定路线循规蹈矩走完所有路口（通常1000个左右），虽然稳妥但耗时长，生成效率较低。● 人工跳步式方法（如DDIM，Denoising Diffusion Implicit Models），凭借经验人为设定抄近道仅走少量路口（通常15个左右）从而实现效率提升，但因为路径缺乏自适应性，容易发生图像模糊或形变等问题。

（ShortDF与传统方案的对比）

ShortDF创出新解法

中国联通数据科学与人工智能研究院提出了一种创新方法——ShortDF（Shortest path optimizing in Denoising Diffusion model去噪扩散模型最短路径优化），可在路径图中找到合适路径，并做路径压缩。直观来说，就像具备会进化的“智能导航”，不再固定走完所有步骤，也不预设定走哪些步骤，而是动态选择最优路径并做路径压缩，让一步抵多步，从而实现效率和质量的权衡。

（ShortDF方法原理）

提升5倍！保质又提效

ShortDF在多个业界主流基准数据集上均取得了显著性能提升，其中在CIFAR-10数据集上的表现尤为突出：原本需要10步生成的DDIM图像，ShortDF仅用2步即可完成，实现了约5倍的速度提升，同时图像清晰度（FID指标）提升18.5%，对比如下所示：

（ShortDF与现有方法结果对比）

这些实验结果验证了ShortDF在多模态生成任务的高效推理能力，实现了在保证生成质量的前提下推理速度的大幅度提升。凭借这一突破性成果，ShortDF入选CVPR 2025的Highlight论文（全球超1万篇投稿中仅2.97%入选），获得国际人工智能学术界的高度认可，相关论文及代码已开源：[Github:UnicomAI/ShortDF](https://github.com/UnicomAI/ShortDF)。

以科技创新推动产业创新

目前，ShortDF技术已在多种内容生成场景中应用，包括“中华器灵”角色生成平台中的古代文物活化生成、“智衣衿”文创一体机中的汉服人物形象生成、“衣影”平台中的服装款式设计生成等，有效确保了生成质量的同时提升了生成效率，优化了用户体验。ShortDF针对扩散类模型具备通用性，应用空间广泛，适用于文生图、文生视频、图像及视频编辑等多种功能场景。

（汉服人物形象生成）

（服装款式设计生成）

（文物活化生成）

未来，中国联通数据科学与人工智能研究院将继续推动多模态生成技术的优化与创新，解决模型产业化落地的“最后一公里”问题，让高效高质的AI生成技术在文创、工业、教育、医疗等更多领域得到更广泛和深入的应用。让人工智能惠及更多个人及企业，推动人工智能+规模化发展。

以科技创新推动产业创新专题 | 5倍提升！ShortDF突破多模态模型质、效困局

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术