6月第三周AI资讯

分享一下这一周的AI新闻:
1.Runway GEN-3


尽管还没有正式发布,由GEN-3模型生成的内容却可以达到Sora的水准。目前该模型还处于Alpha测试阶段,也没有公布具体上市日期。除了能够生成长达10秒的短视频,Runway还演示了GEN-3强大的文本渲染能力。
2.Luma更新


为了进一步增加竞争力,Luma Dream Machine将推出强大的视频编辑和控制功能。用户可以使用编辑器更换视频的背景,或者对视频中的人物和对象进行替换。提前加入等待列表,就可以在第一时间尝试该工具。Luma同时发布了extend视频扩展功能,可以根据提示延长视频长度,并保持内容的一致和连贯性。该功能可以将视频的持续时间扩展到10秒以上,同时保持原视频风格和角色的一致性。从今天开始,Luma Dream Machine标准版、专业版和高级版用户已经可以删除水印,并进行商业化使用。
3.Eleven Labs新功能


本周,Eleven Labs推出了video to sound effects功能,也就是视频转音效。目前已经面向全部用户开放。从本地上传一段视频,系统就会自动分析,并输出4段对应的音效文件。该功能可以准确还原视频中的场景,输出对应的音效。
4.Open Sora 1.2


由中国团队发起的Sora复原项目有了新进展,并在本周发布了Open Sora 1.2版本。和Luma GEN-3不同的是,Open Sora是一个开源的项目。目前支持生成14秒、720p分辨率的视频。Open Sora提供了模型权重的下载地址和在线Demo,大家可以预览一下由该模型生成视频的效果。尽管比上一个版本有进步,Open Sora在视频的画质和连续性方面还需要进一步提升。
5.Hydra Character.AI


这是一个全新的数字人生成平台,能够将任意的虚拟形象转换为会说话、会唱歌的数字人。 使用自己的Google账号登录,就可以开始使用Hydra。操作非常简单,从本地上传一段音频文件,并匹配一张人物头像,即可完成视频合成。例如,我选择上传一段Sono生成的音乐,使用动漫人物作为形象,点击生成视频。除了歌曲生成,Hydra还支持文本转语音功能。用户可以在左侧对话框输入文本,并转换为英文语音。点击播放按钮预览一下效果,然后测试一下语音合成。Hydra同时支持文本转图像功能,目前Hydra可以完全免费使用,且没有任何限制,大家可以尝试。

6.Deepmind

Google Deepmind推出了V2A技术,可以根据视频画面和用户提供的文字描述,自动生成与视频内容同步的音轨。V2A能够生成包括背景音乐、环境音效,以及和视频内容匹配的对话。Deepmind表示,当前的视频模型无法生成带有音频的内容,其中包括Google旗下的VEO模型。V2A技术发布后,将可以和VEO模型共同使用,生成带有音乐和配音的完整视频。

7.GLYPH byt5 V2

Microsoft Research Asia在本周推出了glyph V2版本。不但能够实现准确的文本渲染,还在视觉吸引力方面取得了显著提升。和V1版本不同的是,V2模型能够支持10种不同语言的准确拼写,其中包括对中文的支持。该工具可以直接生成中文海报和内容,并提供了在线Demo。

发表回复