ControlNet:为 Stable Diffusion 插上翅膀

2023/03/05 AI Diffusion 共 1670 字,约 5 分钟

前言

从骑马的宇航员到三次元小姐姐,在不到一年的时间里,AI 绘画 似乎已经取得了革命性的进展。

DALL·E 2

这个「骑马的宇航员」由 OpenAI 2022 年 4 月推出的文生图模型 DALL・E 2 绘制。它的前辈 ——DALL・E 在 2021 年向人们展示了直接用文本生成图像的能力,打破了自然语言与视觉的次元壁。

DALL·E 2 生成的图片

在此基础上,DALL・E 2 更进一步,允许人们对原始图像进行 编辑,比如在画面中添加一只柯基。这一个看似简单的操作其实体现了 AI 绘画模型可控性 的提升。

DALL・E 2 对图片进行编辑

Stable Diffusion

不过,就影响力而言,2022 年最火的文生图模型并不是 DALL・E 2,而是另一个和它功能相似的模型——Stable Diffusion

和 DALL・E 2 一样,Stable Diffusion 也允许创作者对生成的图像进行编辑,但优势在于,这个模型是开源的,而且可以在消费级 GPU 上运行。因此,在 2022 年 8 月发布之后,Stable Diffusion 迅速走红,短短几个月就成了最火的文生图模型。

Stable Diffusion 生成过程示例

在此期间,人们也在进一步探索各种控制这类模型的方法,比如 Stable Diffusion 背后团队之一的 Runway 公司发布了一个图像擦除和替换(Erase and Replace)工具,该工具可以修改图像任何部分。用户需要做的就是擦除该区域并编写自然语言描述,剩下的交给程序就可以了。

Erase and Replace 工具

谷歌和波士顿大学的研究者则提出了一种「个性化」的文本到图像扩散模型 DreamBooth,用户只需提供 3~5 个样本 + 一句话,AI 就能定制照片级图像。

DreamBooth

此外,来自 UC 伯克利的研究团队还提出了一种根据人类指令编辑图像的新方法 InstructPix2Pix,这个模型结合了 GPT-3 和 Stable Diffusion。给定输入图像和告诉模型要做什么的文本描述,模型就能遵循描述指令来编辑图像。例如,要把画中的向日葵换成玫瑰,你只需要直接对模型说「把向日葵换成玫瑰」。

InstructPix2Pix

ControlNet

进入 2023 年,一个名为 ControlNet 的模型将这类控制的灵活度推向了高峰。

效果

原理

ControlNet

Stable Diffusion 本质上是一个 U-Net,可以将 ControlNet 加到 Stable Diffusion 中,如下所示。

Stable Diffusion + ControlNet

应用

利用 ControlNet 和 EbSynth 等工具重新进行 室内装潢设计

来源:https://creativetechnologydigest.substack.com/p/controlling-artistic-chaos-with-controlnet

室内装潢设计

利用 ControlNet 和 Houdini 工具生成 3D 模型。

生成 3D 模型

用 Dreambooth 和 ControlNet 改变 2D 图像光照,可用于照片、视频的后期制作。

来源:https://www.reddit.com/r/StableDiffusion/comments/1175id9/when_i_say_mindblowing_i_mean_it_new_experiments/

改变 2D 图像光照

用 ControlNet 和 EbSynth 实现 动画转真人。虽然效果还不太好,但已经显示出了把动漫改编成真人版但无需演员出镜的潜力。

来源:https://www.reddit.com/r/StableDiffusion/comments/117ewr9/anime_to_live_action_with_controlnet_ebsynth_not/

动画转真人

某设计师利用 ControlNet 生成的著名品牌。

来源:https://twitter.com/fofrAI/status/1628882166900744194

参考

文档信息

-->

Search

    Table of Contents