[2023-05-24]Diffusion Models and RL

Outline

Background & Motivation
Preliminaries & Problem Formulation
Method
Experiments
Summary

Background

Diffusion Model的关键思想是通过去噪过程，将简单的先验分布转化为目标分布，可以将其视作MLE问题。
然而Diffusion Model的大多数应用并不直接涉及likelihood，而是具体地应用到downstream task。

这篇文章主要考虑如何训练Diffusion Model来直接满足这些下游任务目标，而非去匹配某个具体的data distribution。
将Diffusion的过程重新定义为一个MDP，然后从MDP的角度使用RL来解决。

Motivation

Diffusion Model是一种生成模型，通过模拟随机扩散过程来生成数据。它可以生成一系列的中间状态，并逐渐扩散到最终的数据状态。
这个特性使得Diffusion Model非常适合与RL结合，因为RL就是在一系列的状态中选择动作来工作的。

MDP and RL

Markov Decision Process (MDP) 是决策问题的一种表述，可以定义为 $(S, A, ρ_{0}, P, R)$ 。

在时刻 $t$ ，agent观测到状态 $s_{t} \in S$ ，执行动作 $a_{t} \in A$ ，接收反馈奖励 $R (s_{t}, a_{t})$ ，转移到 $s_{t + 1} \sim P (\cdot ∣ s_{t}, a_{t})$ 。
agent采取的动作取决于一个policy $π (a ∣ s)$ 。由此可以交互产生序列 $τ = (s_{0}, a_{0}, s_{1}, a_{1}, \dots, s_{T}, a_{T})$ 。
RL的objective便是maximize $J_{RL} (π)$

J_{RL} (π) = E_{τ \sim p (\cdot ∣ π)} [t = 0 \sum T R (s_{t}, a_{t})]

Problem Formulation

假定已有一个diffusion model，其产生的样本分布为 $p_{θ} (x_{0} ∣ c)$
可以定义denoising diffusion RL objective

J_{DDRL} (θ) = E_{c \sim p (c), x_{0} \sim p_{θ} (\cdot ∣ c)} [r (x_{0}, c)]

Denoising as a Multi-step MDP

通过上述定义，可以将 $J_{DDRL} (θ)$ 等价为 $J_{RL} (π)$
这样定义的好处是，通过分解为MDP下每一步的state，可以将denoising procedure下得到的复杂distribution，简化为policy distribution的迭代，进而使用RL进行优化。

在Diffusion Model中，每一步的噪声添加和去噪过程都可能最终导致复杂的分布。
当我们将每一步扩散视为MDP的一步，此时的目标是找到一个policy，使得在每一步选择最优action。
在这个框架下，policy通常是一种相对简单的分布，使得我们可以更容易地去估计denoising过程的梯度并进行优化。

Policy Gradient

Policy Gradient的基本思想是：通过计算policy的梯度，然后沿着policy的方向来更新改进。

对于 $J (θ) = E [\sum_{t} γ^{t} R_{t} ∣ π_{θ}]$ ，有如下的结论：

\nabla_{θ} J (θ) = E_{π} [\nabla_{θ} lo g π (a_{t} ∣ s_{t}; θ) G_{t}]

其中， $G_{t} = \sum_{k = t}^{T} γ^{k - t} R_{k}$ 是从时间 $t$ 开始的累积奖励。最终通过梯度更新 $θ \leftarrow θ + α \nabla_{θ} J (θ)$ 便能收敛得到optimal policy。

Policy Gradient Estimation

为了估计 $\nabla_{θ} J_{DDRL}$ ，设计了两种estimator，分别对应强化学习中on-policy和off-policy方法中的梯度：

\overset{g}{^}_{SF} = E [t = 0 \sum T \nabla_{θ} lo g p_{θ} (x_{t - 1} ∣ c, t, x_{t}) r (x_{0}, c)]

\overset{g}{^}_{IS} = E [t = 0 \sum T \frac{p _{θ} ( x _{t - 1} ∣ c , t , x _{t} )}{p _{θ_{old}} ( x _{t - 1} ∣ c , t , x _{t} )} \nabla_{θ} lo g p_{θ} (x_{t - 1} ∣ c, t, x_{t}) r (x_{0}, c)]

$\overset{g}{^}_{SF}$ 是on-policy的，是无偏估计，但只能执行一步更新
$\overset{g}{^}_{IS}$ 是off-policy的，是有偏估计，因此要求更新前后的 $p_{θ}, p_{θ_{old}}$ 相差不能太大，但也具有了执行多步更新的能力。
RL中通过trust region限制更新的幅度来解决上述问题，这篇文章基于PPO算法，提出了 (Denoising Diffusion Policy Optimization) DDPO来解决本篇中想要解决的问题。

Reward Functions for Text-to-Image Diffusion

为了检验DDPO的表现，这篇文章在text-to-image diffusion上进行验证，因此具体设计了不同的reward function。

根据特定的目标来设计reward function，可以直接优化我们关心的目标。
- 优化生成的图像的美学分数：LAION aesthetics predictor。
- 优化生成的图像能够被有效地压缩：比较图片压缩前后的文件大小。

视觉语言模型（VLM）reward：通过使用一个预训练的VLM自动生成reward。
- 使用VLM来描述生成的图像，然后将这个描述与原始的prompt进行比较，得到一个相似度reward。

Experiment

主要目标

评估使用RL算法在finetune diffusion model时，对齐各种指定的objective的能力。

Prompt Alignment

实验发现通过DDPO逐渐对齐prompt后，生成的图片变得更加卡通化。
作者猜想，由于现实中并不存在这样的图片，因此在pretrain的时候可能使用了卡通化的图片来对应这类prompt。
在这样的猜想前提下，进一步说明了DDPO对齐prompt的能力。

Generalization

Overoptimization

如果过度优化reward function，可能会失去原本的语义信息
- 过度优化压缩性reward，会导致生成的图片几乎都是噪声。
- 在对齐VLM的生成 ( $n$ animals) prompt的reward中，如果过度优化，会导致最终直接写下这个数字，而非生成正确数量的objects。
- overoptimization也是RL中的一个问题，后续工作可以考虑如何缓解RL带来的这一问题。

Summary

Key Idea

将diffusion model的训练重新定义为MDP，并设计具体的reward来引导学习，使其能够满足general goal而非specific distribution。

📚 ZHANGWP

Explorer