大秀坊视频直播
图像剪辑缺查考数据如何办?百度的商议东谈主员决定奏凯从视频中取材。
传统的 AI 图像剪辑步调依赖多半监督数据查考,数据老本昂贵且难以阴事种种化的剪辑意图。百度的商议团队提议了一种全新的表面视角:将图像剪辑视为退化的时代经过(Degenerate Temporal Process)。
Video4Edit通过运用视频预查考模子中的单帧演化先验(Single-Frame Evolution Prior),完结了从视频生成到图像剪辑的常识挪动。履行结束标明,仅需主流剪辑模子约 1% 的监督数据,即可达到与现时第一梯队模子卓越的性能。

现存的基于扩散模子的图像剪辑步调时常需要大规模的高质料三元组数据(提示 - 源图像 - 剪辑后图像)进行查考。这种数据依赖不仅老本昂贵,且难以阴事种种化的用户剪辑意图。
现存步调在结构保执(Structure Preservation)与纹理修改(Texture Modification)之间也存在根人性的衡量穷困:过度强调结构保执会松手剪辑的纯真性,而追求大幅度的语义修改又容易导致几何失真。
为此,Video4Edit 神气团队提议:将图像剪辑任务再行界说为视频生成的特殊退化面孔。

从时序建模的角度看,视频骨子上是图像序列在时代维度上的演化。如若将源图像视为视频的第 0 帧,剪辑后的图像视为第 1 帧,那么图像剪辑任务不错当然地建模为一个 2 帧的极短视频生成经过。
按照这个想路,模子不错在视频中抽取的两帧图像上学习如何进行图像剪辑,这么就不错快速多半获得无监督数据援救进行模子查考。查考数据量的富饶又在很猛进度上得以改善结构保执与纹理修改间的衡量问题,让模子基于更富饶的熏陶来贬责图像,作念到从心所欲而不逾矩。
基于以上想路,团队运用视频预查考模子中蕴含的单帧演化先验(Single-Frame Evolution Prior)。视频生成模子在多半视频数据上预查考后,学习到了重大的时序一致性经管和帧间演化规矩,这些先验常识自然地包含了结构保执与语义变化之间的均衡机制。
1. 时代退化建模
Video4Edit 将图像剪辑经过建模为从 t=0(源图像)到 t=1(剪辑后图像)的时序演化。通过这种建模,底本需要显式学习的结构保执经管,滚动为视频生成中锻练的时代提神力机制(Temporal Attention),该机制自然倾向于在相邻帧之间保执高频细节和几何结构。
2. 先验常识挪动
在潜在空间(Latent Space)中,视频模子学习到的 zt → zt+1 转机概率散布,不错通过文本提示进行条款化指挥,泰国修车群从而将通用的时序演化智商再行导向为特定的剪辑意图。
这种瞎想完结了参数的高效复用:模子主要学习剪辑意图的对皆,而非从零学习图像生成智商。

3. 数据遵循分析
从信息论角度看,引入视频先验极地面镌汰了假定空间的熵,提供了更强的有用泛化智商。
比较于从静态图像对中学习复杂的非线性映射,基于时序演化的微调具有更高的样本遵循,这证实了为何仅需约 1% 的监督数据即可拘谨。
Video4Edit 在多种图像剪辑任务上进行了系统性评估,包括格调挪动(Style Transfer)、物体替换(Object Replacement)和属性修改(Attribute Modification)。
以下展示了不同剪辑提示下的遵循:
Instruction: Replace the text ‘ TRAIN ’ with ‘ PLANE ’ .(将英文文本"查考"替换为"飞机")
Instruction: Restore and colorize this old photo in high definition.(以高主见度规复和着色这张老相片)
Instruction: Remove his beard.(剃掉他的胡子)
Instruction: Replace background with snowy mountain.(将配景换成雪山)
Instruction: Erase the stop sign.(断根泊车象征)
Instruction: Transform to sketch style.(调遣为草图风光)
在格调挪动任务中,Video4Edit 粗犷准确捕捉标的格调特征(如油画格调、赛博一又克格调),同期有用保留源图像的结构信息。在物体替换任务中(如将"猫"替换为"狗",或改革车辆心绪),Video4Edit 完结了当然的语义和会,边际贬责质料高,无显著伪影。
关于复杂的当然讲话剪辑提示,Video4Edit 粗犷准确领路语义意图,并生成合乎提示要求的剪辑结束。这标明单帧演化先验在语义对皆方面具有邃密的泛化智商。

在法式评估契约下,Video4Edit 使用的监督数据量约为 MagicEdit 等基线步调的1%,但在弊端评估宗旨上达到了可比较致使更优的性能。
在CLIP Score(磋议语义对皆质料)和Structure Score(磋议结构保执智商)等宗旨上,Video4Edit 与使用全量数据的基线步调性能卓越,部分场景下完结了性能进步。这标明通过运用视频预查考先验,不错权臣镌汰对监督数据的依赖,同期保执高质料的剪辑遵循。

比较传统步调需要大规模标注数据,Video4Edit 通过先验常识挪动完结了极高的数据运用遵循。这种范式为图像剪辑任务提供了一种更经济、更可膨胀的查考有瞎想。
论文题目: Video4Edit: Viewing Image Editing as a Degenerate Temporal Process
arXiv 长入:https://arxiv.org/abs/2511.18131
神气主页:https://shalfun.github.io/video4edit/
一键三连「点赞」「转发」「预防心」
接待在讨论区留住你的想法!
— 完 —
咱们正在招聘别称眼疾手快、温雅 AI 的学术剪辑实习生 � �
感兴趣的小伙伴接待温雅 � � 了解折服

� � 点亮星标 � �
科技前沿发达逐日见大秀坊视频直播
