人工智能图像生成技术:短短5年内如何飞速发展?
2021-04-03 09:33:53AI云资讯1076
图源:unsplash
OpenAI曾创建出一些AI行业最具未来感的技术,并因此而享誉盛名。这一研究机构获得了微软的支持,现由Y Combinator创始人Sam Altman领导,以其强大的文本生成器GPT-3而闻名。
在过去几年内,该机构还制造出一只可以通过自学还原魔方的机器手、一组超人电子竞技算法、一种合理生成人类音乐的算法,以及多种可以玩游戏和使用工具学习复杂策略的算法。
近期,OpenAI发布了DALL-E,一个可以根据书面文本生成图像的人工智能系统。例如,系统响应提词“一个牛油果形状的皮包。一个仿造牛油果样式的皮包”,可以产生几十次关于牛油果皮包的迭代。
图源: OpenAI
该公司还未将DALL-E(Salvador Dalí和WALL-E名字的结合)公之于众,甚至也尚未邀请其特定开发者群体来试用新软件,但据其网站上的案例所示,该系统可以创建极其逼真且细致的图像。
DALL-E精通各种艺术风格,包括插图和风景画。它还可以生成文本,在建筑物上进行标记,并将同一场景的素描线条和全彩图像分离。研究人员把这种影响深远的能力称为泛化能力,即算法并非专门针对某一种任务或艺术风格。
OpenAI将算法的神通广大归功于两个主要因素:其一,算法非常庞大。它使用了120亿个参数,数量大到令人惊异。而这些参数可以被认为是算法转动的旋钮,用来调整其理解想法的方式。这120亿个参数在分析图像和文本时能够分辨出诸多特异性,令人难以置信。
然后,这些图像和文本材料被输入到算法中,并且被翻译成更易于算法理解的标记或文本。OpenAI解释说,一个标记就像英语字母表中的一个字母——它们代表碎片化的概念,这一方式更易于机器计算,并且以它们以算法的语言模式排列。
这一机器字母表包含16384个文本标记和8192个图像标记。这种将人类可读文本自动转换为机器可读文本的方法称为“转换器模型”。一个字幕或带有文本的图像转换为算法,最多会被翻译成256个标记,而图像最多能被翻译成1024个标记。这使得算法能够为相对较少的文本输入匹配到更复杂的图像。
之后,算法将通过分析成对的图像和字幕不断进化。通过表面上数百万次迭代,它能够将文本片段与图像的特定特征联系起来。但OpenAI还未公布这一数据集的容量或其包含的图像内容。
该公司并不是第一个尝试从文本中生成图像的公司,甚至这也不是OpenAI的首次尝试。这只是此类算法的最新版本,似乎也是最可行的一个版本。虽然该公司还未发表过任何文章来描述该系统,但这一算法的创造者确实曾在其博客上引用了DALL-E的前置任务。
通过对算法的沿袭进行考察,我们可以追踪到这项技术实际上的发展程度。
2016
OpenAI引用了这篇由密歇根大学和马普研究所撰写的论文,为当前文本到图像生成的研究注入了活力。
这篇论文使用了生成式对抗网络(generative adversarial networks generative,简称GANs)来生成图像。GANs的功能是将两种算法相互对立:一种生成图像,另一种将不够真实的图像驳回。
图源: Reed et. al
2017
一年后,罗格斯大学、里海大学和中国香港大学的研究人员采取了另一种 GAN 方法——“堆叠”成对的算法。第一对算法列出场景的形状和颜色,然后第二对算法细化细节。
图源: Zhang et. al
2019
2019年,另一支主要隶属于微软的团队尝试了不同的“两步走”方法。第一步是生成场景中对象所在位置的示意图,第二步是使用该示意图作为向导生成构成目标图片所需的对象。
图源: Li et. al
2020
去年年底,美国人工智能艾伦研究所发表了一项使用转换器模型的研究,与OpenAI使用的转换器模型相同。艾伦研究所的研究人员没有追求模型的规模,而是依赖于“隐蔽”。
在《麻省理工学院科技评论》上有一篇文章详细解释了这一概念,Karen Hao将“隐蔽”描述为“把不同的单词隐藏在句子中,让模型填补空白”。算法掌握这些直观性跳跃后,研究者发现生成的图像质量得到显著提升。
图源: Cho et al.
回溯过去这些研究案例,我们可以发现OpenAI的DALL-E确实是一项飞跃。从模糊不清的斑点开始,最先进的技术已发展到能够生成牛油果形状的椅子,OneZero专栏作家欧文·威廉姆斯表示他真的愿意购买这样的椅子。
这些进步足以让一代家具设计师、图库艺术家以及其他网络艺术家感到害怕。
相关文章
- Gartner发布2025年中国数据、分析和人工智能技术成熟度曲线
- 数字经济“十四五”目标提前完成,人工智能打开产业全新空间
- 创新,向6G:人工智能在无线接入网中的应用潜力
- 英伟达人工智能芯片迎来太空首秀,AI初创公司Starcloud计划在太空建造数据中心
- 深圳市人工智能产业协会走近凌雄科技:共探DaaS服务模式与AI融合新路径
- 2025年杭州大学生创业学院人工智能专题班圆满结业
- 以智能重构文创!联通数智荣获“兴智杯”全国人工智能创新应用大赛大奖
- 120万奖池,寻找最具想象力的AI创意开发者!2025骁龙人工智能创新应用大赛正式启动!
- 伟创力发布全新人工智能基础设施平台,部署速度提升高达30%
- 英伟达AI服务器8年来能耗飙升了100 倍,世界还能否满足人工智能不断增长的能源需求
- 全球最大的L4无人货运车辆集采结果公示,中国邮政以人工智能重塑全球邮政发展新范式
- 微软人工智能部门宣布推出首款自研图像生成器
- 2026广州国际数智装备与人工智能展览会新闻发布会在穗成功举办
- 2026广州国际数智装备与人工智能展览会新闻发布会在穗成功举办 聚力打造粤港澳大湾区数智产业盛会
- 软银豪掷54亿美元投资人工智能机器人
- 特赞科技携“创意可计算性:设计人工智能”展区亮相2025 世界设计之都大会









