Outline
- Background & Motivation
- Preliminaries & Problem Formulation
- Method
- Experiments
- Summary
Background
- Diffusion Model的关键思想是通过去噪过程,将简单的先验分布转化为目标分布,可以将其视作MLE问题。
- 然而Diffusion Model的大多数应用并不直接涉及likelihood,而是具体地应用到downstream task。
- 这篇文章主要考虑如何训练Diffusion Model来直接满足这些下游任务目标,而非去匹配某个具体的data distribution。
- 将Diffusion的过程重新定义为一个MDP,然后从MDP的角度使用RL来解决。
Motivation
- Diffusion Model是一种生成模型,通过模拟随机扩散过程来生成数据。它可以生成一系列的中间状态,并逐渐扩散到最终的数据状态。
- 这个特性使得Diffusion Model非常适合与RL结合,因为RL就是在一系列的状态中选择动作来工作的。
MDP and RL
Markov Decision Process (MDP) 是决策问题的一种表述,可以定义为。
- 在时刻,agent观测到状态,执行动作,接收反馈奖励,转移到。
- agent采取的动作取决于一个policy 。由此可以交互产生序列。
- RL的objective便是maximize
Problem Formulation
- 假定已有一个diffusion model,其产生的样本分布为
- 可以定义denoising diffusion RL objective
Denoising as a Multi-step MDP
- 通过上述定义,可以将等价为
- 这样定义的好处是,通过分解为MDP下每一步的state,可以将denoising procedure下得到的复杂distribution,简化为policy distribution的迭代,进而使用RL进行优化。
- 在Diffusion Model中,每一步的噪声添加和去噪过程都可能最终导致复杂的分布。
- 当我们将每一步扩散视为MDP的一步,此时的目标是找到一个policy,使得在每一步选择最优action。
- 在这个框架下,policy通常是一种相对简单的分布,使得我们可以更容易地去估计denoising过程的梯度并进行优化。
Policy Gradient
Policy Gradient的基本思想是:通过计算policy的梯度,然后沿着policy的方向来更新改进。
对于,有如下的结论:
其中,是从时间开始的累积奖励。最终通过梯度更新便能收敛得到optimal policy。
Policy Gradient Estimation
为了估计,设计了两种estimator,分别对应强化学习中on-policy和off-policy方法中的梯度:
- 是on-policy的,是无偏估计,但只能执行一步更新
- 是off-policy的,是有偏估计,因此要求更新前后的相差不能太大,但也具有了执行多步更新的能力。
- RL中通过trust region限制更新的幅度来解决上述问题,这篇文章基于PPO算法,提出了 (Denoising Diffusion Policy Optimization) DDPO来解决本篇中想要解决的问题。
Reward Functions for Text-to-Image Diffusion
为了检验DDPO的表现,这篇文章在text-to-image diffusion上进行验证,因此具体设计了不同的reward function。
- 根据特定的目标来设计reward function,可以直接优化我们关心的目标。
- 优化生成的图像的美学分数:LAION aesthetics predictor。
- 优化生成的图像能够被有效地压缩:比较图片压缩前后的文件大小。
- 视觉语言模型(VLM)reward:通过使用一个预训练的VLM自动生成reward。
- 使用VLM来描述生成的图像,然后将这个描述与原始的prompt进行比较,得到一个相似度reward。
- 使用VLM来描述生成的图像,然后将这个描述与原始的prompt进行比较,得到一个相似度reward。
Experiment
主要目标
评估使用RL算法在finetune diffusion model时,对齐各种指定的objective的能力。
Prompt Alignment
- 实验发现通过DDPO逐渐对齐prompt后,生成的图片变得更加卡通化。
- 作者猜想,由于现实中并不存在这样的图片,因此在pretrain的时候可能使用了卡通化的图片来对应这类prompt。
- 在这样的猜想前提下,进一步说明了DDPO对齐prompt的能力。
Generalization
Overoptimization
- 如果过度优化reward function,可能会失去原本的语义信息
- 过度优化压缩性reward,会导致生成的图片几乎都是噪声。
- 在对齐VLM的生成 ( animals) prompt的reward中,如果过度优化,会导致最终直接写下这个数字,而非生成正确数量的objects。
- overoptimization也是RL中的一个问题,后续工作可以考虑如何缓解RL带来的这一问题。
Summary
Key Idea
将diffusion model的训练重新定义为MDP,并设计具体的reward来引导学习,使其能够满足general goal而非specific distribution。