摘要
无需 Adapter,仅把参考图 latent 与噪声帧沿序列维拼接,靠新设计的 R-RoPE 给图像 token 独立坐标空间,模型一眼分清“图是图、帧是帧”,推理零开销。
自提 S2V-Consistency 0.723、S2V-Decoupling 0.319 双第一,VBench 主体一致性、美学质量追平 Veo3/Kling 等闭源模型,人类盲测全胜。
一张图里多人、多物可同步锁定,无重叠伪影;动漫、真人、卡通、动物全品类通杀,免抠图端到端生成。
基于 Wan2.1-14B 两阶段微调,代码已上线,模型权重将随后释放;10 亿级数据管道、训练脚本、评测集全链路公开,可一键复现或继续蒸馏。
多图参考,主体保持一致,背景可控的视频生成一直是难点。 合肥工业大学,清华大学,智谱刚刚开源了多主体参考视频生成模型Kaleido(代码已开源,模型应该很快到)。
Kaleido通过一套全新的数据构建方法和精巧的架构设计,让AI在生成视频时能够真正理解并锁定主角,彻底解决了主角与背景混淆的核心难题。
目录
视频生成的主角困境
视频生成技术的发展一日千里。
受到Sora等模型的启发,扩散变换器(DiT)架构已成为行业共识。谷歌的Veo3和快手的Kling等商业模型,其生成的视频质量已经可以和专业制作相媲美。这不仅极大地提高了内容创作的效率,也显著降低了制作门槛和成本。
开源社区同样活跃,诸如Wan和CogVideoX等模型,让开发者能够根据特定需求进行微调和定制。
目前,视频生成的研究主要围绕两大任务展开:文本到视频(T2V)和图像到视频(I2V)。
文本到视频,优点是创造性极强,天马行空,但缺点是内容随机性太大,难以精确控制。
图像到视频,则是将一张静态图片转化为动态视频。它解决了部分控制问题,但代价是第一帧必须与输入图像完全相同,这极大地限制了创作的灵活性。
市场需要一种更灵活的控制方式。由此,主体到视频(Subject-to-Video, S2V)应运而生。
S2V的任务是,根据用户提供的几张关于某个主角的参考图片,结合文本指令,生成一段主角外观高度一致的视频。这里的主角可以是人、是物,甚至是特定的场景背景。它完美结合了T2V的创造性和I2V的可控性。
像Vidu和Kling这样的商业模型已经展示了S2V在电商、广告等领域的巨大潜力。
但开源S2V模型始终与其闭源对手存在差距。这个差距主要体现在两点:一是在不同场景和构图中难以保持主角外观的一致性;二是生成的视频整体质量不高。
因为缺乏有效的训练数据,以及条件注入策略不够高明。
当下大多数数据构建方法非常粗暴,直接从视频中随机抽取几帧作为参考图。用这种数据训练出来的模型,会倾向于完整复制参考图中的所有元素,包括主角的姿态、视角甚至背景。它并没有学会去理解主角本身的内在特征。
结果就是,生成的视频会带有很多参考图里不相干的背景细节或物体,这些通常是我们不希望看到的。
此外,由于训练数据的覆盖面和质量不足,现有模型在处理多主角或者动画角色时,一致性表现往往不尽如人意。
具体来说,现有数据构建方法有三个明显缺陷:主角和场景多样性不足,导致模型泛化能力差;标注质量参差不齐,降低了模型的可控性;参考图中的主角与背景信息纠缠不清。
这就导致了当前的S2V模型在实际使用时,通常需要一个独立的分割或抠图步骤,无法实现真正的端到端生成,也限制了组合的灵活性。
如何将参考图像的信息有效地融入视频生成过程,是另一个大问题。
当前的主流策略并不理想。例如,Phantom模型采用的方式是在序列维度上拼接潜在特征。这种方法虽然简单,但当有多张参考图时,不同的参考对象可能会在空间上重叠,导致奇怪的组合伪影。VACE模型采用了基于适配器的架构,虽然效果有所提升,但带来了不可忽视的额外推理开销。
这些策略的共同问题是,当参考图的背景很复杂时,模型很容易把背景里的干扰信息也带到新生成的视频里。
在处理多主角或多张参考图时,由于缺乏专门的对齐机制,模型常常会搞混不同主角的特征,导致时间线上的一致性减弱。
用高质量数据釜底抽薪
为了解决这些根本性问题,Kaleido团队设计了一套全新的数据构建管道。
这套方法的思路很明确:通过强大的定位、分割、过滤和创新的交叉配对组合策略,在数据层面就强制实现主角与背景的分离。
最终目标是产出海量、多样化、高质量的数据对,用于训练一个能够直接从未经处理的参考图和灵活的文本提示中,合成出高质量视频的模型。这才是S2V技术走向实际应用的关键一步。
Kaleido的数据管道是一个可扩展的多阶段流程。
第一步,视频预处理和字幕生成。团队将大规模的原始视频集合切分成包含连贯动作或事件的短片。然后,使用自动字幕模型为每个片段生成精准的文本描述,确保视觉内容和文本信息对齐。
第二步,定义主体类别并识别候选。为了极大地丰富数据的多样性,团队构建了一个庞大的主体类别分类法,涵盖了人类、物体、背景等多个领域,包含了超过100个不同的主体类别和800多个同义词及实例。利用这个分类法,可以从字幕中自动识别出可用于训练的主角候选,整个过程无需人工标注,实现了可扩展的主角发现。
第三步,精确定位与分割。为了准确地框出主角区域,管道采用了Grounding DINO进行定位,并使用SAM(Segment Anything Model)进行精细化分割。Grounding DINO强大的开放集检测能力和SAM像素级的分割精度,确保了语义的正确性和边界的清晰度,这对于以主角为中心的生成至关重要。
第四步,严苛的过滤与验证。为了保证最终数据的质量,管道实施了多重过滤策略。
尺寸过滤,移除过小或过大的实例。
基于CLIP的分类验证,确保分割出的主体与文本描述的类别一致。
基于IoU(交并比)的过滤,排除那些重叠区域过大的实例,确保每个主体都是清晰独立的。
质量检查,通过亮度和模糊度评估,筛掉低质量的样本。特别地,对于人类类别,管道会使用InsightFace工具,只保留那些能识别出有效正面的实例,以增强身份保持能力。
第五步,通过背景修复实现解耦。S2V的核心挑战之一就是主角和背景的纠缠。为了解决这个问题,管道采用修复技术,将参考图中分割出的主角区域之外的背景信息抹除。在训练时,这会鼓励模型从参考图学习主角的外观,同时依赖文本提示来合成背景。这个策略能有效防止模型对参考图背景中的偶然线索产生过度拟合,从而增强主角在各种新场景中的可移植性。
第六步,通过姿态和动作丰富来增强。为了进一步提高多样性,避免模型仅仅学会复制参考帧,管道利用Flux Redux技术来丰富参考图像,为其添加原始视频中不存在的新姿态和动作。这种数据增强方式,鼓励模型学习到更通用的、对动作变化具有鲁棒性的主角身份表示。
这套精密的管道,不仅产出了高质量、与背景无关的主角标注数据,也为S2V任务建立了一个统一的框架,为未来专注于主角个性化和多任务统一的研究铺平了道路。
用一个简单改动实现高效注入
在模型架构上,Kaleido的设计出人意料地简洁。
现代的文本到视频(T2V)合成技术,通常在一个压缩后的潜在空间中进行。一个时空自编码器会将高清视频压缩成一个紧凑的潜在张量。然后,一个基于变换器的去噪网络在这个潜在空间中,根据文本提示逐步将纯噪声还原成视频的潜在表示。
Kaleido在S2V任务中,需要将图像条件也注入这个过程。
它没有采用复杂的适配器模块,而是选择了一个简单的拼接方案。它将编码后的图像条件和视频噪声沿着序列维度直接合并起来。最大限度地保留了原始基础模型的结构,通过最小的架构修改实现了高效且稳定的学习。
但直接拼接也带来一个新问题:模型可能会把作为条件的图像,误解为视频序列中的连续帧,从而破坏视频的时间连续性,降低生成质量。模型必须能够清楚地区分哪些是图像标记,哪些是视频标记,并理解它们各自的角色。
为了解决这个问题,Kaleido引入了参考旋转位置编码(Reference Rotary Positional Encoding, R-RoPE)机制。
这是一个非常巧妙的设计。
传统的3D旋转位置编码(RoPE)使用一个形式为(t, h, w)的位置向量来编码视频中的每一个标记。
对于作为条件的图像,Kaleido修改了它们的位置向量。它让图像的空间维度坐标,从视频序列的最大观察维度之后开始。
这样确保图像标记在模型的时空嵌入空间中,占据了与所有视频标记都不同的、独立的区域,从而让模型可以轻易地将它们分离开。
通过这种基于拼接的条件注入和特别设计的位置编码,Kaleido让扩散变换器架构能够清晰地区分视频和图像信息,从而生成一致且高质量的视频输出。
实验结果证明其优越性
Kaleido模型基于强大的Wan2.1-T2V-14B模型,通过两阶段训练范式进行微调。第一阶段是预训练,使用了200万对数据,训练了1万步。随后是监督微调(SFT)阶段,使用了50万对精选数据,训练了5千步。
为了全面评估S2V的生成效果,团队采用了多维度指标。
对于通用视频质量,使用了VBench基准测试中的五个标准:主体一致性、背景一致性、动作平滑度、美学质量和成像质量。
对于与文本提示的语义对齐度,使用了ViCLIP分数进行评估。
团队还专门为S2V任务引入了两个新的指标:
S2V一致性:衡量参考图像中的主角身份,在生成视频中被保留的程度。这个指标越高,说明主角越像。
S2V解耦:评估模型分离背景信息的能力。这个指标通过计算参考图背景和生成视频背景的差异来得出,分数越高,说明模型越没有受到参考图背景的干扰,解耦能力越强。
为了保证评估的公正和全面,团队构建了一个涵盖人类、动物、卡通和物体的多样化测试集。
下表总结了Kaleido与其他闭源和开源模型的定量比较。
在VBench的五个常规指标上,Kaleido的表现极具竞争力,特别是在主体一致性和美学质量方面表现突出,与其他指标一起,达到了与顶级闭源模型相当的水平。
而在为S2V任务量身定制的指标上,Kaleido的优势则非常明显。它在S2V一致性(0.723)和S2V解耦(0.319)上都取得了最高分。
这组数据清晰地表明,Kaleido能够更忠实地保留参考图像中的主角身份,同时更好地分离掉无关的背景信息。这直接验证了其数据构建策略和架构设计的有效性。
除了机器打分,团队还进行了一项用户研究,邀请人类评估者从视频质量、提示对齐度、S2V一致性和S2V解耦四个方面进行打分。结果显示,人类评估者在各个方面都一致地更偏爱Kaleido生成的视频,进一步从人的主观视角确认了其优越性。
下图展示了Kaleido在几个代表性场景中的定性比较。
结果一目了然。VACE难以分离无关信息,参考图中的背景元素总是会出现在生成的视频中。Vidu偶尔会引入参考图像的冗余重复,导致同一个主角在视频里出现多次。Phantom也存在类似的问题,并且整体视频质量稍逊一筹。
相比之下,Kling和Kaleido在主角一致性和信息解耦方面表现更优。但Kling偶尔会在参考保真度上出错,例如在一个动物案例中,小狗被错误地渲染为脖子上戴着铃铛。
总体而言,Kaleido在多个维度上实现了更均衡的性能,展示了明显更强的主体解耦能力,同时实现了与闭源模型相当的主角一致性。
为了验证模型中关键组件的有效性,团队进行了全面的消融研究。
首先是交叉配对数据构建的影响。团队比较了使用和不使用这种数据训练出的模型。结果显示,排除了交叉配对数据后,模型的S2V一致性和S2V解耦指标都出现了显著下降,证明了这种数据策略的有效性。
经过交叉配对数据训练的模型,能够更好地将主角与背景、手持物体等无关元素分离开。
其次是R-RoPE位置编码的影响。团队测试了四种设置:基线(无R-RoPE)、仅在宽度上移位、仅在高度上移位,以及同时在宽高上移位。
同时进行空间移位(ShiftW&H)时,模型在主体一致性和信息解耦上的得分最高。
可视化结果也证明,R-RoPE有效减轻了多主体场景中的参考混淆和主体重叠问题。这些发现确认了Kaleido的R-RoPE设计对于增强多参考图的集成和防止生成过程中的信息错位至关重要。
它站在巨人的肩膀上
Kaleido的成功并非凭空而来,它建立在图像和视频生成领域长期的技术演进之上。
在图像领域,以DreamBooth为代表的方法通过在少量参考图上微调扩散模型,探索了个性化生成,实现了对主角特征的保留。后续的IP-Adapter等工作通过利用多张输入图和上下文信息,进一步增强了参考条件。
在视频领域,技术演进的速度更快。从早期基于GAN(生成对抗网络)的方法,到后来基于U-Net架构的扩散模型在质量上实现巨大飞跃,再到最近的扩散变换器(DiT)在可控性、文本对齐和长时序一致性上带来实质性进展。
在这些进展的基础上,S2V作为参考引导式生成的自然延伸而出现。Vidu和Kling等商业系统验证了其可行性,引起了广泛关注。随后,VACE、Phantom等开源框架的发布,加速了这一领域的研究。
尽管发展迅速,但现有S2V模型始终面临着背景解耦不足和主体保真度降低的挑战。Kaleido正是在此基础上,通过引入更全面的数据管道和改进的训练策略,解决了这些长期存在的局限。
Kaleido的技术创新可以总结为三点:
一套全面的数据构建管道,通过多类采样、严格过滤和交叉配对,极大地丰富了数据多样性,提高了数据保真度,并从源头上确保了主角与无关元素的分离。
一种高效的图像条件注入方法,即R-RoPE。它通过为参考图像引入独特的旋转位置编码,最大限度地提升了模型整合多参考图信息的能力,有效解决了多主体场景下的一致性问题。
一个最先进的开源S2V模型。大量的实验证明,Kaleido在主体保真度、背景解耦和整体生成质量方面,都达到了卓越的水平。
Kaleido技术上超越了现有开源模型,开源将极大地推动整个视频生成领域的研究和应用生态。
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/67976.html
 
                
 微信扫一扫
                                                    微信扫一扫                                             支付宝扫一扫
                                                    支付宝扫一扫                                            
 
        