腾讯混元文生图开源模型推出小显存版本,仅需6G显存即可运行
2024-07-06 15:07:18AI云资讯68907
7月4日,腾讯混元文生图大模型(混元DiT)宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好,该版本与LoRA、ControlNet等插件,都已适配至Diffusers库;并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练个性化LoRA模型;同时,混元DiT模型升级至1.2版本,在图片质感与构图方面均有所提升。
模型易用性再提升,个人电脑可轻松运行
基于DiT架构的文生图模型生成图片质感更佳,但对显存的要求却非常高,让许多开发者望而却步。这也是新版本Stable Diffusion模型无法快速普及的原因之一。
应广大开发者的需求,混元DiT推出小显存版本,最低仅需6G显存即可运行优化推理框架,对使用个人电脑本地部署的开发者非常友好。经过与Hugging Face合作,小显存版本、LoRA与ControlNet插件,都已经适配到Diffusers库中。开发者无需下载原始代码,仅用简单的三行代码仅可调用,大大简化了使用成本。
同时,混元DiT宣布接入Kohya,让开发者可以低门槛地训练专属LoRA模型。
Kohya是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。用户可以通过图形化界面,完成模型的全参精调及LoRA训练,无需涉及到代码层面的细节。训练好的模型符合Kohya生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。
此外,腾讯宣布混元文生图打标模型”混元Captioner“正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作高质量的文生图数据集。
相比起业界的开源打标模型,混元Captioner模型能更好的理解与表达中文语义,输出的图片描述更为结构化、完整和准确,并能精准识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识。
混元Captioner模型开源之后,全球的文生图研究者、数据标注人员,均可使用混元Captioner高效地提升自身图像描述质量,生成更全面、更准确的图片描述,提升模型效果。混元Captioner生成的数据集不仅能用于训练基于混元DiT的模型,亦可用于其他视觉模型训练。
众多开发者关注,成最受欢迎国产DiT开源模型
在提升模型易用性的同时,腾讯宣布混元文生图打标模型”混元Captioner“正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作高质量的文生图数据集。
相比起业界的开源打标模型,混元Captioner模型能更好的理解与表达中文语义,输出的图片描述更为结构化、完整和准确,并能精准识别出常见知名人物与地标。模型还支持开发者自行补充和导入个性化的背景知识。
作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设生态。6月,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。于此同时,模型易用性大幅提升,用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件,或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。
目前,在众多开发者的支持下,混元DiT发布不到2个月,Github Star数已经超过2.6k,成为最受欢迎的国产DiT开源模型。
相关文章
- AI时代,架构师如何破局成长?腾讯云架构师技术沙龙圆满收官
- 腾讯会议打通腾讯元宝,“AI纪要”实现开会边开边总结
- 连续三年参展!腾讯游戏安全亮相Gamescom 2025并与韩国知名游戏厂商达成合作
- 海亮科技x腾讯教育 联合亮相全球盛会!
- 腾讯云与全球手游巨头Voodoo达成合作,共助小游戏品质升级
- 腾讯云上线DeepSeek-V3.1 API,智能体开发平台和TI平台同步上线
- 腾讯云助力秘塔AI降低近数据采集及训练成本,实现全球数据高效采集
- 腾讯Q2 国际游戏业务继续走强,新品《沙丘:觉醒》表现亮眼
- 腾讯与港中大签署合作框架安排 携手推动人工智能法律研究合作与科技人才培养
- 1600万玩家预约!腾讯云助力国产英雄射击游戏《远光84》全球公测上线
- 中国移动与腾讯签署战略合作协议
- 腾讯互娱余睿超:循“新”而动,向“质”而行,构筑产业发展新生态
- 智涌云端,与 AI 共生,腾讯云架构师峰会圆满落幕!
- 腾讯研究院“破茧”报告三部曲,绘数字信息生态新蓝图
- AI智能加速,腾讯云天御构建全流程、多场景金融风控安全防线
- 腾讯系超50款鸿蒙应用上架:更新加速度,功能完备度飙升!