3月第四周AI资讯
  • Post author:
  • Post category:AI
  • Post comments:0评论

今天为大家总结一下本周重要的人工智能新闻:

  1. Sora模型新消息

近期Factorial Funds发布了一篇研究文章:Factorial Funds | Under The Hood: How OpenAI’s Sora Model Works,详细分析了Sora模型的训练成本。文章表明,Sora模型的训练需要大量计算资源,大概需要1万个NVIDIA H100图形处理器,并连续运行一个月的时间。推理成本方面,每张NVIDIA H100显卡每小时能生成5分钟的视频。由于成本过高,Sora暂不面向普通用户开放,目前仅和电影工作室或者设计公司开展合作。随着AI视频生成的广泛应用,将会需要大量的算力支持。本篇文章还详细介绍了Sora的原理,感兴趣的同学可以看一下。

2. FreePik图形生成

本周FreePik旗下的Picasso推出了文本转图像功能,并限时发放500个VIP账号邀请码。点击邀请链接,输入Pink Sakura邀请码,即可获得VIP试用资格。

登录到Picasso,左上角可以选择不同的功能。切换到Text to Image选项,高级账号可以使用FreePik提供的数十种预设风格。例如输入一段提示词,我这里输入的是钢铁侠,下方就会出现无限张类似的图像。

保持提示词不变,切换到Comic风格,下方就会实时生成动漫风格的图像。

打开其中一张喜欢的图像,即可保存高清文件到本地,非常方便。我把图像放大,大家可以看一下增强后的效果。点击图像下方的Reimagine选项,还可以在这张图像的基础上生成类似的内容。

左侧可以选择不同的风格,右侧会输出对应的结果。Enhance功能则可以放大图像,提升分辨率到2K,大家可以对比一下强化前后的效果。

调整不同的Imagination值,还可以在原图的基础上生成不同风格的内容。

3. Domo新功能

近期Vigo推出了一项新功能,可以基于一张图像完成视频人物替换。此类工具可以将虚拟人物应用到不同的场景中,实现视频的DeepFake。点击链接,即可在Vigo的Discord服务器使用该功能。本周Domo也加入了类似的功能,可以通过单张参考图完成视频人物替换,并保持原视频中人物的动作。进入Domo的官网,访问下方的Discord链接,该功能的使用方法非常简单。输入/video命令,上传参考视频和图像,即可替换视频中的人物。分别上传一段参考视频和图像,开始合成视频。

例如使用一段舞蹈类短视频,并替换视频中的人物,大家可以看一下合成后的效果。

Domo能够生成更为清晰高质量的视频,人物动作也非常流畅。此外,Domo还新增了很多新模型,可以完成视频风格转换,大家可以尝试。

4. Streaming Text-to-Video

这是近期发布的视频生成工具,可以根据文字提示生成2分钟的视频。Streaming TRV采用自回归的方法,逐帧生成视频,视频中的每个画面都基于之前的内容。最长支持2分钟1200帧的动画生成,Streaming TRV保证了视频生成的一致性,最高支持720*720分辨率的画面输出。目前该项目的代码还没有发布:GitHub – Picsart-AI-Research/StreamingT2V: StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text,感兴趣的同学可以关注。

5. AnyVideoToVideo

这是一个开源的视频风格转换项目,可用于替换视频中的物体和场景。该项目支持通过文本提示编辑视频、人物替换以及风格转换,效果非常出色。例如我们可以通过提示词编辑视频,改变视频中的人物和背景样式。Subject Driven Editing则可以通过图像替换视频中的主体,同时保持物体的动作和背景。Style Transfer功能则可以根据一张参考图,改变原视频的风格。目前AnyVideoToVideo的代码已经开源,并在Replicate提供了Demo页面:AnyV2V (tiger-ai-lab.github.io)

此外,我们还可以将原视频替换为不同风格的动画,不过AnyVideoToVideo仅支持1到2秒钟左右的参考视频,大家可以尝试。 

6. LLLM Coliseum

这是一个非常有趣的项目,可以通过街头霸王3游戏评估LLLM对环境的理解能力。每个语言模型会控制一个游戏角色,根据当前的场景判断下一步的招式。通过多组测试,GPT-3.5 Turbo模型获得了最高分,Mistral Large模型则输掉了最多的比赛。

发表回复