腾讯混元文生图大模型开源训练代码与新插件,持续建设开源生态
2024-06-23 17:24:31AI云资讯97077
6月21日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。
这意味着,全球的企业与个人开发者、创作者们,都可以基于混元DiT训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。
作为中文原生模型,用户在通过混元DiT的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。
此前,腾讯混元文生图大模型宣布全面升级并对外开源,已在 Hugging Face 平台及 Github 上发布,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解。模型开源仅一个月,Github Star数达到2.4k,位于开源社区热门DiT模型前列。

混元DiT Github项目页面
在开源训练代码的同时, LoRA小规模数据集训练方案与可控制插件ControlNet的发布也让混元DiT模型的开源生态更具想象力。
LoRA模型,全称Low-Rank Adaptation of Large Language Models,是一种用于微调大型语言模型的技术。在文生图模型中,LoRA被用作一种插件,允许用户在不修改原有模型与增加模型大小的情况下,利用少量数据训练出具有特定画风、IP或人物特征的模型。
LoRA技术在文生图开源领域十分受欢迎,大量的创作者利用这种技术创造出多种多样的模型,比如使用几张个人照片,生成一个专属于某个人的高精度照相馆;或创造出盲盒、黏土等风格模型。

AI图像社区LiblibAI上的LoRA模型
混元DiT本次发布的专属LoRA插件,支持开发者最少仅需一张图即可创作出专属的模型。比如,导入四张青花瓷图片与相应的提示词,即可完成模型训练,创建了一个“青花瓷”生成模型:用户输入简单提示词,即可生成想要的青花瓷图像。
部分训练数据:

训练后模型的推理结果示例:

使用混元DiT LoRA训练的青花瓷生成模型
本次上线的另一个插件ControlNet,则是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。
目前,腾讯混元提供了能提取与应用图像的边缘(canny)、深度(depth)、人体姿势(pose)等条件的三个首发ControlNet模型,让开发者直接使用其进行推理。该三个ControlNet插件能实现通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人等能力。同时,混元DiT也开源了ControlNet的训练方案,开发者与创作者可以训练自定义的ControlNet模型。

腾讯混元DiT上线的三个ControlNet插件效果演示
自混元DiT模型开源以来,得到了众多开发者的支持和反馈,腾讯混元团队也一直在持续完善和优化基于混元DiT的开源组件,与行业共建下一代视觉生成开源生态。本月初,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%。同时模型易用性大幅提升,用户可以基于ComfyUI的图形化界面,使用混元DiT,或者通过Hugging Face Diffusers通用模型库,仅用三行代码即可调用混元DiT模型,无需下载原始代码库。
据了解,腾讯混元文生图能力已广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型发布了一站式AI广告创意平台腾讯广告妙思。《央视新闻》《新华日报》等20余家媒体也已经将腾讯混元文生图用于新闻内容生产。
相关文章
- 携手共建“物理世界大模型”联合实验室,洞察时空与上海电信达成战略合作
- 东软添翼医疗大模型领跑 医疗AI进入“可信时代”
- 直接上智能体,还需要统一基座大模型吗?医院智能化走到十字路口
- 云知声 U2-ASR 2.5上线:首个中文方言语义转写大模型
- 全国首个内容审核大模型过审 云从科技破解Agent时代谣言难题
- 湖北移动AI实验室让中小企业零门槛用上大模型
- 数据的第三种形态:艺恩如何为大模型提供多模态的数据弹药?
- 荆华密算入选主流价值语料生态联盟首批成员,护航大模型时代,为AI系上“安全带”
- 稳居第一梯队!东软添翼医疗大模型用实力回应“医疗AI”
- 许欢:人工智能应急大模型开启应急管理新发展时代
- 唯一聚焦制造业!创新奇智入围IDC大模型私有化市场前五
- 可视、可管、可算、可追溯!浩鲸科技重磅推出鲸智大模型Token运营平台
- 数字峰会探新“智”| 数字中国AI竞速:大模型从“能力竞赛”转向“可信落地”
- 数字峰会探新“智”|为AI装上“质检员”,浪潮软件集团发布大模型“体检”方案
- AI大模型智能体独角兽再落子!探迹科技完成真爱美家收购交割,持股达 43%
- 北京亦庄设立大模型生态服务站 助力AI产业合规发展
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









