腾讯混元文生图开源模型上线三款ControlNet插件,让创作更自由
2024-08-15 15:51:00AI云资讯148776
8月15日,腾讯混元文生图开源大模型(开源项目名称为“HunyuanDiT”,以下简称为“混元DiT”)联合社区发布了最新的三款可控制插件ControlNet,包括tile(高清放大)、inpainting(图像修复与扩充)、lineart(线稿生图)等不同类型,与此前官方插件一同形成混元DiT的ControlNet矩阵,组合使用可以覆盖包括美术、创意、建筑、摄影、美妆、电商等80%案例和场景。
这意味着,全球的企业与个人开发者、创作者们,都可以基于丰富混元DiT模型的ControlNet生态更加精准地生成图片,创造更具个性化的专属模型,进行更大自由度的创作。
腾讯混元DiTControlNet矩阵,实现多样化场景创作
AI生图领域的可控制插件ControlNet是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。
Tile(高清放大)可以为画面扩充信息,用于增加细节辅助超清放大,将画面清晰度变成4K甚至8K,连毛发都清晰可见,非常适合对于图片有极致细节追求的场景使用。

使用tile模型将人物写真画面放大八倍
适当调整使用方法的情况下,tile插件也可以对画面进行其他操作,比如通过如衰减权重后把下面图中的真人写真变成一个可爱的动漫人物。

Inpainting(图像修复与扩充)插件的能力类似于部分图像处理软件的AI涂抹重绘、AI扩图,该能力可以将图片中被涂抹和斑驳褪色的部分,根据创作者的需要进行填充。通过该插件可以实现图片背景、人物主体改变、局部修改画面等需求,能处理高达70%面积涂抹重绘。

通过腾讯混元DiT Inpainting插件改变图片背景

通过腾讯混元DiT Inpainting插件实现多点重绘,将原来的深色猫咪改变为黄色猫咪,并保持四肢和脸部毛发的一致性

通过腾讯混元DiT Inpainting插件实现局部细节修改,将原来的睁眼的人物变成闭眼

通过腾讯混元DiT Inpainting插件实现扩图
Lineart(线稿生图)则可参考各种不同类型线条,创作真人、动漫和建筑图片,既可用户建筑行业效果图的生成,也可以给手稿上色作为创作参考。
Lineart插件可以接受由原有混元DiT插件canny提取的线稿,也能兼容预处理模型 anyline输出的线稿,根据线稿生成精致的场景。
在建筑设计场景下,用lineart生成建筑设计效果图后,还能搭配inpainting模型更换内容、调整材质,最后使用tile模型放大输出最终效果图。在动漫创作场景下,将原有动漫图片稍加反色处理输入给模型,就能通过提示词为角色上色。

使用腾讯混元DiT lineart插件生成建筑设计效果图

使用腾讯混元DiT lineart插件给动漫手稿上色
此前,腾讯混元DiT官方发布了能提取与应用图像的canny(边缘)、depth(深度)、pose(人体姿势)等条件的三个首发ControlNet模型,开发者可直接使用其进行推理。该三个ControlNet插件能实现通过线稿生成全彩图、生成具有同样深度结构的图、生成具有同样姿态的人等能力。同时,混元DiT也开源了ControlNet的训练方案,开发者与创作者可以训练自定义的ControlNet模型。

腾讯混元DiT官方上线的三个ControlNet插件效果演示
本次腾讯混元DiT新增的三款可控制插件ControlNet由混元DiT联合社区模型制作者调参训练,选取了创作者最为常用的场景方向进行制作。
三款ControlNet模型的加入,将扩充混元DiT已有的ControlNet插件矩阵,并可互相组合搭配进行创作。随着腾讯混元DiT ControlNet生态的完善,并在ComfyUI等多种工具支持下,混元DiT模型的绘图质量、多样性和可靠性大大提高,将更能激发使用者的创意,产出更多优秀视觉作品。
众多开发者关注,成最受欢迎国产DiT开源模型
今年5月,腾讯混元文生图大模型宣布全面升级并对外开源,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解。
作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设开发者生态。
6月,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。
与此同时,模型易用性大幅提升,用户可以通过Hugging Face Diffusers快速调用混元DiT模型及其插件,或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。
7月4日,腾讯混元文生图大模型(混元DiT)升级至1.2版本并宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好;并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练LoRA模型。
目前,在众多开发者的支持下,混元DiT发布仅3个月,Github Star数已经超过3.1k,成为最受欢迎的国产DiT开源模型。

相关文章
- 腾讯与特斯拉共同升级座舱体验,正式上线微信互联与目的地服务
- 腾讯游戏启动2026寒假未成年人保护专项行动,AI功能助力家庭科学管控
- 腾讯云助力炫佳科技全新升级一站式AI短剧平台 平均制作效率提升90%
- 生态共赢 赞同科技携手腾讯云斩获三项大奖
- 绿联科技联手腾讯游戏:打造“NAS+游戏”新生态,突破存储设备功能局限
- 腾讯云 WeData 升级三大 Data+AI 能力,位居一体化数据智能平台市场第一!
- 腾讯云智能体开发平台升级:做深平台、做厚内容、做强应用,构筑Agent产业合作新生态
- 从工具辅助到认知革命:天立与腾讯的战略共振如何重塑学习未来
- 腾讯云发布 AI 数据湖解决方案,支持 CPU和GPU 混合调度
- 智效跃迁,架构无界,第三届腾讯云架构师峰会圆满落幕!
- 腾讯云ADP国内首发AI原生Widget:一句话秒级生成交互组件,重塑Agent使用体验
- 绝味食品牵手腾讯打造AI会员智能体 满足消费者多元化需求
- 腾讯视频与北京电影学院达成战略合作 共建“AI影视联合实验室”
- 高端消费科技品牌 xTool 递表港交所:个人创意工具全球龙头,腾讯领投 2 亿美元 pre-IPO
- 四川具身科技新品发布,腾讯云全栈AI能力助力提升机器人情感交互能力
- 腾讯云Valkey社区贡献位居全球第一,率先在国内支持8.0版本
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









