前言
从骑马的宇航员到三次元小姐姐,在不到一年的时间里,AI 绘画 似乎已经取得了革命性的进展。
DALL·E 2
这个「骑马的宇航员」由 OpenAI 2022 年 4 月推出的文生图模型 DALL・E 2 绘制。它的前辈 ——DALL・E 在 2021 年向人们展示了直接用文本生成图像的能力,打破了自然语言与视觉的次元壁。
在此基础上,DALL・E 2 更进一步,允许人们对原始图像进行 编辑,比如在画面中添加一只柯基。这一个看似简单的操作其实体现了 AI 绘画模型可控性 的提升。
Stable Diffusion
不过,就影响力而言,2022 年最火的文生图模型并不是 DALL・E 2,而是另一个和它功能相似的模型——Stable Diffusion。
和 DALL・E 2 一样,Stable Diffusion 也允许创作者对生成的图像进行编辑,但优势在于,这个模型是开源的,而且可以在消费级 GPU 上运行。因此,在 2022 年 8 月发布之后,Stable Diffusion 迅速走红,短短几个月就成了最火的文生图模型。
在此期间,人们也在进一步探索各种控制这类模型的方法,比如 Stable Diffusion 背后团队之一的 Runway 公司发布了一个图像擦除和替换(Erase and Replace)工具,该工具可以修改图像任何部分。用户需要做的就是擦除该区域并编写自然语言描述,剩下的交给程序就可以了。
谷歌和波士顿大学的研究者则提出了一种「个性化」的文本到图像扩散模型 DreamBooth,用户只需提供 3~5 个样本 + 一句话,AI 就能定制照片级图像。
此外,来自 UC 伯克利的研究团队还提出了一种根据人类指令编辑图像的新方法 InstructPix2Pix,这个模型结合了 GPT-3 和 Stable Diffusion。给定输入图像和告诉模型要做什么的文本描述,模型就能遵循描述指令来编辑图像。例如,要把画中的向日葵换成玫瑰,你只需要直接对模型说「把向日葵换成玫瑰」。
ControlNet
进入 2023 年,一个名为 ControlNet 的模型将这类控制的灵活度推向了高峰。
效果
原理
Stable Diffusion 本质上是一个 U-Net,可以将 ControlNet 加到 Stable Diffusion 中,如下所示。
应用
利用 ControlNet 和 EbSynth 等工具重新进行 室内装潢设计。
来源:https://creativetechnologydigest.substack.com/p/controlling-artistic-chaos-with-controlnet
利用 ControlNet 和 Houdini 工具生成 3D 模型。
用 Dreambooth 和 ControlNet 改变 2D 图像光照,可用于照片、视频的后期制作。
来源:https://www.reddit.com/r/StableDiffusion/comments/1175id9/when_i_say_mindblowing_i_mean_it_new_experiments/
用 ControlNet 和 EbSynth 实现 动画转真人。虽然效果还不太好,但已经显示出了把动漫改编成真人版但无需演员出镜的潜力。
来源:https://www.reddit.com/r/StableDiffusion/comments/117ewr9/anime_to_live_action_with_controlnet_ebsynth_not/
某设计师利用 ControlNet 生成的著名品牌。
来源:https://twitter.com/fofrAI/status/1628882166900744194
参考
ControlNet Repo:https://github.com/lllyasviel/ControlNet
论文:Adding Conditional Control to Text-to-Image Diffusion Models
文档信息
- 本文作者:Bookstall
- 本文链接:https://bookstall.github.io/2023/03/05/ControlNet/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)