VideoDirector: Precise Video Editing via Text-to-Video Models

先看看效果🤪

效果感觉一般，以这个例子来看，其应该是对Tokenflow[^1]做的改进，应该也是用T2I模型在时空上做的操作，不过我感觉效果有限，再好也很难超过Tokenflow了。看看他怎么讲故事的😄。

摘要

Despite the typical inversion-then-editing paradigm using text-to-image (T2I) models has demonstrated promising results, directly extending it to text-to-video (T2V) models still suffers severe artifacts such as color flickering and content distortion.

跟我想的没错，还是Inversion-base的方法，然后research gap还是由于将T2I的图像编辑方法拓展到T2V的视频编辑方法，会出现artifacts（伪影），例如色彩闪烁和内容失真。

Consequently, current video editing methods primarily rely on T2I models, which inherently lack temporal-coherence generative ability, often resulting in inferior editing results.

已经有很多方法是基于T2V做的了，（尽管在社区开源的T2V模型比较少）比如我之前的工作，比如UniEdit[^2]，VidToMe[^3]，AnyV2V[^4]。很难想象这是2024年底的文章。想错了其是用T2V模型做的🤒。其创新点是围绕时空这个research gap讲的，引言部分详细介绍。

引言

Notably, instead of using T2V models, current video editing methods are still built upon T2I models by leveraging inter-frame features [5, 12, 14], incorporating optical flows [3], or training auxiliary temporal layers [16].

有很多工作是基于T2V做的了。

As a result, these methods still suffer inferior realism and temporal coherence due to the absence of temporal coherence in vanilla T2I models. This raises a question: Can we edit a video directly using T2V models?

他写文章的时候不调研一下的吗，11月份应该是投CVPR2025。之后的写法基本一致，其首先介绍在图像编辑的领域，通过Null-text Inversion和CFW能够做到无偏Inversion。再通过注意力操作实现编辑任务，但是直接将这样的方法利用T2V模型搬到视频编辑任务上就会导致闪烁和失真。并用了一张图来证明：

图画的真好看，大有可为啊！

同时在这张图上，作者分析了为啥图像编辑的Inversion加注意力的范式直接通过T2V移植到视频编辑是不可行的。

错怪作者了，我以为是作者的主要工作就是将图像编辑的范式通过T2V移植到视频编辑了。但是实际上作者是说直接将想法移植是不可行的，因此其做了改进，那么这个改进就是创新点！

主要是有两个原因：

T2V模型时空紧密耦合在一起，就算是使用改进后的Inversion，还是会有重建偏差
视频的时空布局太复杂了，而图像编辑的注意力操作没有办法完成这么复杂的操作，太复杂就会导致操作注意力的时候不同的时空Token进行干扰。

最后，作者介绍了针对这些问题做的改进：

通过一个解耦合操作，提供额外的时间线索。并且将null-text embedding 拓展到多帧的阶段去适应时间信息
提出了一个自注意力操作去控制复杂的时空布局

感觉就解耦合操作是作者自己的东西，其他好像都是其他文章的。自注意力在图像编辑的时候就有引出了，这么出名作者不可能不知道，感觉作者是将各种方法拼凑在一起，最后加了一个解耦合，但是创新点不够，因此这么写。

方法

改进1：

Muti-Frame Null-Text Embedding：将原本的空文本Embedding拓展一个维度：${φ_t}∈R^{F ×l×c}$，其中 $l$ 和 $c$ 分别代表序列长度和Embedding维度。

Spatial-Temporal Decoupled Guidance: 利用视频Inversion过程中的时间和自注意力特征来获得空间和时间的解耦合信号。

这个解耦合居然也是来自其他文献的，逆天了

时间一致性可以通过最小化时间注意力的特征图来获得，如下图公式所示：
$$
\mathcal{L}_T = \mathcal{M}T^{f/b} \cdot \mathcal{M}T \cdot |(\mathcal{T}+ - \mathcal{T}-)|_2^2
$$

$$
\mathcal{G}_T^{f/b} = \frac{\partial(\mathcal{L}_T)}{\partial z_t}
$$
其中$\mathcal{T}$代表注意力map，$+$和$-$分别代表Inversion过程和Denoising 过程，然后$ \mathcal{M}_T$代表一个Mask将Map最后一个维度选择前top $K$个值。$\mathcal{M}_T^{f/b}$代表由SAM2获得的前景和背景mask。

SAM2: Segement anything ，一个语义分割模型

同时上式一并用在时空注意力上如下：
$$
\mathcal{L}\mathcal{K} = \mathcal{M}\mathcal{K}^{f/b} \cdot ||\mathcal{K}+ - \mathcal{K}-||_2^2
$$
$$
\mathcal{G}_\mathcal{K}^{f/b} = \frac{\partial(\mathcal{L}_\mathcal{K})}{\partial z_t}
$$

因此可以获得时空解耦的梯度如下：
$$
\mathcal{G} = \eta_f \cdot \mathcal{G}_T^f + \eta_b \cdot \mathcal{G}_T^b + \zeta_f \cdot \mathcal{G}_\mathcal{K}^f + \zeta_b \cdot \mathcal{G}_\mathcal{K}^b
$$
前面的系数都是超参，具体使用这个梯度如下：
$$
\epsilon_\theta = \epsilon_\theta(z_t, c, t) + \omega[\epsilon_\theta(z_t, c, t) - \epsilon_\theta(z_t, \phi, t)] + \mathcal{G}
$$
注意这个$\omega$就是CFG，这个式子其实就是最经典的去噪公式，只是其后面加了一个处理后的梯度$\mathcal{G}$.

Attention Control for Video Editing：其实就是替换自注意力，将编辑分支的注意力替换为重建分支。然后其中也使用了SAM2生成的mask，具体公式如下：
$$
\widehat{Attn}=\begin{cases} W_t \cdot V_t^*, & \text{if } t < \tau_s, \ S\left(\frac{Q_t^* \cdot \hat{K}_t^\top}{\sqrt{d}} \otimes [1|\mathcal{M}^f]\right) \cdot \hat{V}_t, & \text{otherwise.} \end{cases}
$$
然后还有他之前提的交叉注意力的操作：
$$
M_t^C=\begin{cases} C \cdot [\gamma \cdot (M_t^*) + (1-\gamma) \cdot (M_t’)], & \text{if } t < \tau_c, \ M_t^*, & \text{otherwise.} \end{cases}
$$

题外话，如果噪声预测部分是用DiT实现的话，不存在交叉注意了，怎么注入呢

实验

数据也是自己收集的，prompt来自GPT和作者自己。使用AnimateDiff作为background，这个不错看看。

Our method requires 8.5 minutes for pivotal tuning and 1 minute for video editing on a single A100 GPU.

跑一个要快十分钟, 还是在A100上，这就是拼凑方法的坏处。

远远不如我的工作，而且作者的所有例子都没有shape发生大面积更改的情况，因为他们用了mask，虽然对非编辑部分进行了保护，但是也最终导致了没办法进行shape编辑。

Kunlin's blog

VideoDirector

VideoDirector: Precise Video Editing via Text-to-Video Models

摘要

引言

方法

实验

相关文献