12月第一周AI资讯

本周,多项突破性人工智能技术发布:

1. Runway Pika新动态:Runway partners with Getty Images to build enterprise ready AI tools | Runway Blog (runwayml.com)

近期,知名的视频生成平台Runway,宣布和图库平台Getty Images合作,旨在为用户提供更高质量的视频生成模型。Getty Images是全球知名的创意图库平台,并在近期推出了AI图像生成器。Runway和Getty Images合作后,将会为用户提供更多的设计素材,用于生成高清视频。此外,Runway还在近期加入了Camera Control和Motion Brush功能,可以进一步控制镜头的移动方式,生成更高质量的视频。

作为Runway的竞争对手,Pika也有新动作。目前,已经有多位用户收到了内部测试邀请,并分享了Pika1.0生成的作品。以下是一段漫画风格的作品。无论是画质、连贯性还是镜头移动方面,Pika都已经全面超越了其他视频生成工具。

2. Generative Powers of Ten :Generative Powers of Ten (powers-of-10.github.io)

近期,google research发布了一项新技术Generative Powers of Ten,可以实现图像无限放大的效果。这是一个文本转图像模型,可以对特定场景进行极端的语意缩放,并在多个图像尺度上生成一致的内容。用户可以添加多段连贯的提示词,实现震撼的视觉效果。

Generative Powers of Ten可以实现深层次图像缩放,效果远超传统的超分辨率模型。根据提示词的层次,该模型理论上可以完成无限图像放大。

3. Vid2DensePose :GitHub – Flode-Labs/vid2densepose: Convert your videos to densepose and use it on MagicAnimate

本周,字节跳动发布了Magic animate,可以把静态图像动态化。不过,如果想要生成不同动作的视频,则需要使用DensePose姿势识别系统,采集动作,并导入到Magic animate。

在Magic animate推出后不久,就有网友发布了一个名为Vid2DensePose的工具,可以实时识别短视频的动作,并导出MP4格式的文件。把生成的动作导入到Magic animate就可以完成短视频合成。

目前,该工具已经可以在本地和Colab端运行。以colab为例,运行第一段脚本,安装必要的组件。然后,准备一段5秒钟左右的短视频,重命名为input_video,上传到根目录。下一步,运行第二段脚本,完成动作捕捉,下载output video视频文件到本地。

4. MagicDance :MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer. (boese0601.github.io)

该工具由字节跳动推出,可以通过一张图像生成舞蹈视频。MagicDance可以生成逼真的动作和表情,同时保持人物的身份信息。

之前,字节跳动已经推出了类似的MagicAnimate工具。不过,MagicAnimate对人物面部的还原能力不足。有网友发现,通过Deepfake换脸工具,可以修复生成动画脸崩的问题。

5. StreamDiffusion :X 上的 あき先生 / Aki:“StreamDiffusion、ほぼ100fpsで画像生成出来るようになりました!! sd-turbo, 512×512, batch size 1, txt2imgだと10msで1枚画像が生成出来ます! 多分これが一番速いと思います https://t.co/4qleR2isW1” / X (twitter.com)

近期,日本网友Aki使用StreamDiffusion模型和4090显卡,实现了毫秒级的图像生成速度。AKI表示,StreamDiffusion可以实现每秒钟生成150张图像。该项目还在研发中。

StreamDiffusion的推出,将会实现真正意义上的实时绘图和实时直播。

6. Playground v2模型 :Playground – free-to-use online AI image creator

12月6日,Playground 宣布推出V2图像生成模型。该模型完全开源,且可以商用。从官方提供的样本可以看出,由Playground V2模型生成的图像已经超越了SDXL1.0。在多项基准测试中,Playground v2的各项数据均领先SDXL模型。

登录到Playground就可以免费使用V2模型。首先,使用SDXL生成一张人物肖像。然后,保持提示词不变,切换到playground V2,生成新的图像。在没有添加Lora的情况下,由PlaygroundV2模型生成的内容整体效果还是不错的。点击上面链接就可以尝试该模型。

7. Meta图像生成工具 :Imagine with Meta AI

本周,Meat正式推出了image cREATOR。点击视频下方链接,输入一段简单的提示词,右侧就会生成四张图像。出图速度非常快。

目前,该工具暂时无法改变分辨率,仅能生成1:1比例的图像。根据测试画面可以看出,Meat图像生成器和Dall-E3的效果基本相同。感兴趣的同学可以尝试。

8. DemoFusion Colab :GitHub – PRIS-CV/DemoFusion: Let us democratise high-resolution generation! (arXiv 2023)

DemoFusion是一个基于SDXL的图像增强工具,可以将生成的图像放大16倍,而无需占用过多的计算资源。

由于对显卡要求过高,DemoFusion高支持4K分辨率图像生成。左侧可以设置各种参数。

不过,DemoFusion的缺点是耗时过长,且不支持放大自定义图像。

9. Style Aligned Image Generation  :GitHub – PRIS-CV/DemoFusion: Let us democratise high-resolution generation! (arXiv 2023)

本周,Google research推出了一个新项目,可以实现稳定风格图像输出。Style Aligned Image Generation技术无需微调,只需更改提示词,就可以生成高度一致的图像。

现在,运行该程序,输入两段类似的提示词,更改主体词条,就可以获得两张3D风格的图像。输入新的提示词风格,替换主体词条,也能生成两张类似的图像。

10. ZERO10 AR Mirror  :ZERO10 is a fashion AR try-on company

近期,ZERO10公司正式推出了AR试衣镜,为各大时尚品牌提供了新的零售解决方案。

AR Mirror是一种人工智能驱动的交互式显示器,由Macintosh台式计算机提供动力,并利用3D人体跟踪,能以每秒60帧4K分辨率在现实世界中呈现虚拟试穿效果。

目前,已经有多家奢侈品牌和ZERO10合作,在店面中添加了AR设备。

发表回复