VideoDirector: Precise Video Editing via Text-to-Video Models
先看看效果🤪
效果感觉一般,以这个例子来看,其应该是对Tokenflow[^1]做的改进,应该也是用T2I模型在时空上做的操作,不过我感觉效果有限,再好也很难超过Tokenflow了。看看他怎么讲故事的😄。
摘要
Despite the typical inversion-then-editing paradigm using text-to-image (T2I) models has demonstrated promising results, directly extending it to text-to-video (T2V) models still suffers severe artifacts such as color flickering and content distortion.
跟我想的没错,还是Inversion-base的方法,然后research gap还是由于将T2I的图像编辑方法拓展到T2V的视频编辑方法,会出现artifacts(伪影),例如色彩闪烁和内容失真。
Consequently, current video editing methods primarily rely on T2I models, which inherently lack temporal-coherence generative ability, often resulting in inferior editing results.
已经有很多方法是基于T2V做的了,(尽管在社区开源的T2V模型比较少)比如我之前的工作,比如UniEdit[^2],VidToMe[^3],AnyV2V[^4]。很难想象这是2024年底的文章。想错了其是用T2V模型做的🤒。其创新点是围绕时空这个research gap讲的,引言部分详细介绍。
引言
Notably, instead of using T2V models, current video editing methods are still built upon T2I models by leveraging inter-frame features [5, 12, 14], incorporating optical flows [3], or training auxiliary temporal layers [16].
有很多工作是基于T2V做的了。
As a result, these methods still suffer inferior realism and temporal coherence due to the absence of temporal coherence in vanilla T2I models. This raises a question: Can we edit a video directly using T2V models?
他写文章的时候不调研一下的吗,11月份应该是投CVPR2025。之后的写法基本一致,其首先介绍在图像编辑的领域,通过Null-text Inversion和CFW能够做到无偏Inversion。再通过注意力操作实现编辑任务,但是直接将这样的方法利用T2V模型搬到视频编辑任务上就会导致闪烁和失真。并用了一张图来证明:
图画的真好看,大有可为啊!
同时在这张图上,作者分析了为啥图像编辑的Inversion加注意力的范式直接通过T2V移植到视频编辑是不可行的。
错怪作者了,我以为是作者的主要工作就是将图像编辑的范式通过T2V移植到视频编辑了。但是实际上作者是说直接将想法移植是不可行的,因此其做了改进,那么这个改进就是创新点!
主要是有两个原因:
- T2V模型时空紧密耦合在一起,就算是使用改进后的Inversion,还是会有重建偏差
- 视频的时空布局太复杂了,而图像编辑的注意力操作没有办法完成这么复杂的操作,太复杂就会导致操作注意力的时候不同的时空Token进行干扰。
最后,作者介绍了针对这些问题做的改进:
- 通过一个解耦合操作,提供额外的时间线索。并且将null-text embedding 拓展到多帧的阶段去适应时间信息
- 提出了一个自注意力操作去控制复杂的时空布局
感觉就解耦合操作是作者自己的东西,其他好像都是其他文章的。自注意力在图像编辑的时候就有引出了,这么出名作者不可能不知道,感觉作者是将各种方法拼凑在一起,最后加了一个解耦合,但是创新点不够,因此这么写。
方法
改进1:
Muti-Frame Null-Text Embedding:将原本的空文本Embedding拓展一个维度:${φ_t}∈R^{F ×l×c}$,其中 $l$ 和 $c$ 分别代表序列长度和Embedding维度。
Spatial-Temporal Decoupled Guidance: 利用视频Inversion过程中的时间和自注意力特征来获得空间和时间的解耦合信号。
这个解耦合居然也是来自其他文献的,逆天了
时间一致性可以通过最小化时间注意力的特征图来获得,如下图公式所示:
$$
\mathcal{L}_T = \mathcal{M}T^{f/b} \cdot \mathcal{M}T \cdot |(\mathcal{T}+ - \mathcal{T}-)|_2^2
$$
$$
\mathcal{G}_T^{f/b} = \frac{\partial(\mathcal{L}_T)}{\partial z_t}
$$
其中$\mathcal{T}$代表注意力map,$+$和$-$分别代表Inversion过程和Denoising 过程,然后$ \mathcal{M}_T$代表一个Mask将Map最后一个维度选择前top $K$个值。$\mathcal{M}_T^{f/b}$代表由SAM2获得的前景和背景mask。
SAM2: Segement anything ,一个语义分割模型
同时上式一并用在时空注意力上如下:
$$
\mathcal{L}\mathcal{K} = \mathcal{M}\mathcal{K}^{f/b} \cdot ||\mathcal{K}+ - \mathcal{K}-||_2^2
$$
$$
\mathcal{G}_\mathcal{K}^{f/b} = \frac{\partial(\mathcal{L}_\mathcal{K})}{\partial z_t}
$$
因此可以获得时空解耦的梯度如下:
$$
\mathcal{G} = \eta_f \cdot \mathcal{G}_T^f + \eta_b \cdot \mathcal{G}_T^b + \zeta_f \cdot \mathcal{G}_\mathcal{K}^f + \zeta_b \cdot \mathcal{G}_\mathcal{K}^b
$$
前面的系数都是超参,具体使用这个梯度如下:
$$
\epsilon_\theta = \epsilon_\theta(z_t, c, t) + \omega[\epsilon_\theta(z_t, c, t) - \epsilon_\theta(z_t, \phi, t)] + \mathcal{G}
$$
注意这个$\omega$就是CFG,这个式子其实就是最经典的去噪公式,只是其后面加了一个处理后的梯度$\mathcal{G}$.
Attention Control for Video Editing:其实就是替换自注意力,将编辑分支的注意力替换为重建分支。然后其中也使用了SAM2生成的mask,具体公式如下:
$$
\widehat{Attn}=\begin{cases} W_t \cdot V_t^*, & \text{if } t < \tau_s, \ S\left(\frac{Q_t^* \cdot \hat{K}_t^\top}{\sqrt{d}} \otimes [1|\mathcal{M}^f]\right) \cdot \hat{V}_t, & \text{otherwise.} \end{cases}
$$
然后还有他之前提的交叉注意力的操作:
$$
M_t^C=\begin{cases} C \cdot [\gamma \cdot (M_t^*) + (1-\gamma) \cdot (M_t’)], & \text{if } t < \tau_c, \ M_t^*, & \text{otherwise.} \end{cases}
$$
题外话,如果噪声预测部分是用DiT实现的话,不存在交叉注意了,怎么注入呢
实验
数据也是自己收集的,prompt来自GPT和作者自己。使用AnimateDiff作为background,这个不错看看。
Our method requires 8.5 minutes for pivotal tuning and 1 minute for video editing on a single A100 GPU.
跑一个要快十分钟, 还是在A100上,这就是拼凑方法的坏处。
远远不如我的工作,而且作者的所有例子都没有shape发生大面积更改的情况,因为他们用了mask,虽然对非编辑部分进行了保护,但是也最终导致了没办法进行shape编辑。
相关文献
[^1]:Geyer, Michal, Omer Bar-Tal, Shai Bagon和Tali Dekel. 《TokenFlow: Consistent Diffusion Features for Consistent Video Editing》. arXiv, 2023年11月20日. http://arxiv.org/abs/2307.10373.
[^2]:Bai, Jianhong, Tianyu He, Yuchi Wang, Junliang Guo, Haoji Hu, Zuozhu Liu和Jiang Bian. 《UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing》. arXiv, 2024年2月23日. https://doi.org/10.48550/arXiv.2402.13185.
[^3]:《VidToMe_Arxiv.pdf》. 见于 2024年4月13日. https://vidtome-diffusion.github.io/VidToMe_Arxiv.pdf.Ku, Max, Cong Wei,
[^4]: Weiming Ren, Harry Yang和Wenhu Chen. 《AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks》. arXiv, 2024年3月21日. https://doi.org/10.48550/arXiv.2403.14468.