使用HuggingFace实现 DiffEdit论文的掩码引导语义图像编辑

原創

2022-11-25 13:04

在本文中，我们将实现Meta AI和Sorbonne Universite的研究人员最近发表的一篇名为DIFFEDIT的论文。对于那些熟悉稳定扩散过程或者想了解DiffEdit是如何工作的人来说，这篇文章将对你有所帮助。

什么是DiffEdit?

简单地说，可以将DiffEdit方法看作图像到图像的一个更受控制的版本。DiffEdit接受三个输入-

模型会根据查询文本生成原始图像的修改版本。如果您想对实际图像进行轻微调整而不需要完全修改它，那么使用DiffEdit是非常有效的。

从上图中可以看到，只有水果部分被梨代替了。这是一个非常惊人的结果!

论文作者解释说，他们实现这一目标的方法是引入一个遮蔽生成模块，该模块确定图像的哪一部分应该被编辑，然后只对遮罩部分执行基于文本的扩散。

从上面这张论文中截取的图片中可以看到，作者从输入的图像中创建了一个掩码，确定了图像中出现水果的部分(如橙色所示)，然后进行掩码扩散，将水果替换为梨。作者提供了整个DiffEdit过程的良好可视化表示。

这篇论文中，生成遮蔽掩码似乎是最重要的步骤，其他的部分是使用文本条件进行扩散过程的调节。使用掩码对图像进行调节的方法与在“Hugging face”的In-Paint 实现的想法类似。正如作者所建议的，“DiffEdit过程有三个步骤：

步骤1:为输入图像添加噪声，并去噪:一次参考提示文本，一次参考查询文本(或无条件，也就是不参考任何文本)，并根据去噪结果的差异推导出一个掩码。

步骤2:对输入图像进行DDIM编码，估计与输入图像相对应的潜在值

步骤3:在文本查询条件下执行DDIM解码，使用推断的掩码将背景替换为来自编码过程中相应时间步" 1 "的像素值

下面我们将这些思想实现到实际的代码中。

完整文章

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.