超越Sora!全球首个带背景音乐,文生1080超高清视频模型

全球社交巨头Meta发布最新大模型Movie Gen,正式进军文生视频领域

摘要

Movie Gen拥有300亿参数,能够每秒生成16帧的16秒1080P超高清视频,并具备视频剪辑、个性化功能和不同宽高比适配等多元化功能。

Movie Gen基于Transformer架构,优化了文本到图像和文本到视频的生成,能够推理对象运动和相机运动,生成合理动作的视频内容。

网友对Movie Gen的全面化功能表示震惊,认为Meta在文生视频领域超越了OpenAI的Sora。

尽管Meta尚未公布是否开源Movie Gen模型,但已有人表现出迫不及待的态度,期待使用这一强大的文生视频模型。

全球社交巨头Meta发布最新大模型Movie Gen,正式进军文生视频领域。

Movie Gen共有300亿参数,能以每秒16帧直接生成16秒的1080P超高清视频,还提供精准的视频剪辑、个性化功、不同宽高比适配等多元化功能。

最大技术亮点是,Movie Gen能直接生成带精准配乐的视频,目前Sora、Runway、Luma等一线产品都无法提供该功能。

有网友对Movie Gen的全面化功能相当震惊,表示,Meta比OpenAI更高的发布了Sora。

基本上都是一片Amazing,足以看出Movie Gen的超强性能。

Sora掀起了文生视频风口,但是它自己却莫名消失了~

目前,Meta还没有公布开源该模型,但已经有人迫不及待了。

这是目前最强的文生视频模型,我们很快能用它制作电影了。

Movie Gen功能简单介绍

文生视频是Movie Gen的核心模块,是基于Transformer架构开发而成,专门优化了文本到图像和文本到视频的生成。Movie Gen能够生成长达16秒、每秒16帧的1080P超高清视频,支持73K token上下文

通过理解文本提示,结合预训练时学习到的视觉知识,生成与文本描述相匹配的视频内容。这一模块的技术创新在于其能够推理对象运动、主体-对象交互和相机运动,从而生成各种概念的合理动作。

在训练过程中,Meta采用了大规模的互联网图像、视频和音频数据,通过复杂的数据策划和过滤流程,确保了模型训练数据的多样性和质量。

此外,为了提高生成视频的质量和一致性,Meta还引入了监督式微调,使用人工策划的高质量视频数据对模型进行进一步的训练。

个性化视频生成是在基础视频模型上进行了扩展,支持生成包含特定人物身份的视频内容。例如,输入一个人的图像和文本提示,模型能够生成包含该人物并具有丰富细节的视频。

Meta使用了一种全新的训练策略,通过在模型训练中加入人脸图像和文本提示的配对数据,使模型学会如何将特定的人物身份信息融入到视频生成过程中。

精确视频编辑是Movie Gen的另外一大技术创新,允许用户通过文本提示对视频进行精确编辑。

Meta通过创新的训练方法,使模型能够理解文本提示中的编辑指令,并将其应用于视频内容的修改中。包括添加、移除或替换视频中的元素,以及进行背景或风格等全局性的修改

能生成带背景音乐的视频,流匹配和DiT是关键技术。流匹配是一种创新的生成式建模方法,通过构建一个最优传输路径来指导生成过程,从而确保生成的内容既连贯又富有创意。与传统的扩散模型相比,流匹配不仅提高了训练效率,还增强了推理阶段的表现力。

DiT一种经过调整的变压器架构,能够更好地处理音频数据。通过对归一化层输出进行缩放和偏移,并对自注意力及前馈网络层输出进行缩放,实现了对音频信号更精细的控制。同时,通过一个多层感知机来预测调制参数,进一步优化了模型性能。

为了适配不同的设备,针对视频中的位置信息编码问题,Movie Gen使用了一种因子化的可学习位置嵌入方式。这种方法可以灵活地适应不同尺寸、宽高比以及视频长度的输入,避免了传统固定长度位置编码带来的限制。

Movie Gen通过将空间坐标以及时间坐标转化为独立的嵌入向量,再将它们相加得到最终的位置表示,从而有效减少了因位置编码不当导致的画面扭曲或变形现象,尤其是在时间维度上表现尤为明显。

为了降低性能消耗,Movie Gen引入了多维度并行化策略,包括数据并行、张量并行、序列并行以及上下文并行。这种三维并行化设计允许模型在参数数量、输入token数和数据集大小三个轴向上进行扩展,同时也能横向扩展至更多的GPU设备上。

特别是在处理高分辨率视频时,由于自注意力机制本身的计算复杂度较高,因此高效的并行化策略对于减少所需的计算资源至关重要。

本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/32601.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 3天前
下一篇 3天前

相关推荐

发表回复

登录后才能评论
联系我们

联系我们

+86 132-7601-9273

在线咨询: QQ交谈

邮件:siyushenqi@gmail.com

工作时间:周一至周日 9:00-18:30

添加微信
添加微信
WhatsApp Telegram email Email
分享本页
返回顶部

私域神器:一站式全网全渠道拓客营销软件
销售热线:173 5412 3667 (←点击添加微信)