文本转视频工具–Stable Video Diffusion

11月21日,Stability官方推出了Stable Video Diffusion:Introducing Stable Video Diffusion — Stability AI,也就是基于Stable Diffusion的开源视频生成模型。

SVD支持图像转视频、文本生成视频同样具备多视角合成和微调功能。SVD将会推出两种图像转视频模型,可以生成每秒14到25帧的动画。基于SD基础模型的SVD在用户偏好评估中已经远超Pika和runway gen2模型,SVD模型在576 x1024分辨率下训练可以快速生成14帧以上的上下文图像并添加了防抖动的解码器。SVD XT模型则可以生成每秒25帧的图像。

目前,Stability已经在huggingface提供了SVD,SVD XT模型的下载地址:stabilityai/stable-video-diffusion-img2vid-xt · Hugging Face。从网友实测的结果可以看出,Svd生成的短视频已经可以媲美最先进的GEN2模型。此外,为了证明自己的实力Runway官方宣布,正式推出Motion Brush, Gen-2 Style Presets, 以及升级版的Camera Controls功能。经过升级后,在文本转图像图像转视频的过程中Gen-2还会具备更强的保真度和分辨率。风格预设则是首次加入的功能,用户可以选择多种预设视频风格,无需输入复杂的提示就可以生成媲美电影画质的视频。现在登录到Runway,就可以使用Motion Brush beta工具了。

上传一张图像,调整笔刷遮罩需要移动的区域,选中人物的轮廓下方的三个选项则可以调整数值。控制水平垂直和接近的速度设置,完成后点击生成一段视频。从生成的视频可以看出,Motion Brush选中区域的人物会按照我们设置的轨迹移动。

此外选择text to video模式,右侧则新增了一项add style功能。可以选择预设视频风格。例如,选择3D卡通风格,输入一段文本提示开始生成视频。目前Runway的新注册用户依然可以获得100秒免费额度,点击这个链接就可以体验gen2的新功能。

近期anthropic宣布推出Claude 2.1模型:Anthropic \ Introducing Claude 2.1。Claude 2.1目前已经提供API接口,并提供了高达200K的上下文能力,可以快速读取15万的英文单词。在几分钟内阅读完一本长篇文学作品。Claude 2.1经过了优化减少虚假陈述和错误信息的提供。在和Claude 2模型的对比中,Claude 2.1的理解能力得到了明显的增强,错误率也降低了30%以上。Claude 2.1推出后,在上下文能力方面已经远远超越了GPT4 TURBO模型。

此外,Meta也在近期推出了两项新技术,分别是EMU EDIT:Emu Edit (metademolab.com)和EMU VIDEO:Emu Video | Meta (metademolab.com)。EMU EDIT是一个实时图像编辑工具,可以实现图像编辑自动化。例如,输入一段提示图像中就会显示出对应的文本。在EMU EDIT的帮助下,我们可以输入任意的命令。在保持图像结构的前提下替换图像主题的色彩风格并可以添加和原图风格一致的物体。EMU EDIT将会重新定义图像编辑的方法,用户无需学习任何图像编辑知识,输入简单的提示就可以把自己的想法转换为可视化的内容。

EMU VIDEO可以生成4K高分辨率的视频,也被META称为最强的视频生成工具。EMU VIDEO是一种基于扩散模型的视频生成工具,在和市场的主流模型对比中,画质和理解力指标方面都非常优秀。从生成的视频样本可以看出,EMU VIDEO可以生成高质量的视频和清晰的字体。

发表回复