2月第二周AI资讯

今天,我为大家介绍几种近期发布的人工智能工具:

  1. MLBlocks

近期,MLBlocks 推出了无代码图像处理工作流平台,帮助用户轻松创建适合自己的 WorkFlow。MLBlocks 是可视化简化版的 ComfyUI,操作也非常简单。点击链接:ML Blocks | Home,就可以尝试该工具。

登录到后台,点击新建一个项目,左侧工具栏可以选择数十种图像生成、Ai模块、图像编辑模块,选择一个模块,拖动到右侧即可。

使用鼠标滚轮可以缩放工作流的视图,点击模块两侧的接口,即可连接多个模块,设定工作流的顺序。

例如,设置一个简单的 background remover 工作流,上传一张图像点击运行按钮,即可去除背景。添加 change canvas 模块,设置好输出图像的宽高比,点击运行按钮,添加该模块后,工作流就会自动完成背景移除,输出 1:1 比例的图像。此外,添加 upscale 模块到工作流,还可以把生成的图像放大。ML Blocks 可以免费使用,用户可以设计任意的工作流,用于批量处理图像,大家可以尝试。

  1. MGIE

近期,Apple 发布了开源图像编辑模型 MGIE:[ICLR’24] MGIE (mllm-ie.github.io)。该工具结合了多模态大语言模型和图像编辑模型,用户只需输入自己的想法,就可以完成图像编辑。例如,我们可以通过英文提示词,改变参考图的背景样式和色彩。在和同级工具的对比中,MGIE 可以更准确的理解提示词内容。

MGIE 提供了在线 demon,点击链接:128.111.41.13:7122,就可以尝试该工具。

例如,上传一张需要编辑的图像,输入英文提示词,即可替换画面的整体色调。选择一张新的图像,输入 “make cloth yellow” 提示,就可以把人物的服装替换为黄色,效果非常不错。

上传一张花店中的女性图像,输入 “as if the flower shop was library” 提示词,我们可以看到,在保持图像整体结构的前提下,背景已经被替换成了图书馆。

上传一张黑色的眼镜,输入 “make the frame red” 提示,即可把镜框替换为红色。

MGIE 还支持局部修改,输入提示词,就可以更改人物的头发颜色。

总之,MGIE 的推出,将会大大简化图像编辑的流程。如果能够接入语音交互模型,我们就可以通过对话的形式,完成图像修改。

  1. Invideo GPT:

本周,知名的视频生成平台 Invideo 在 GPT Store 推出了 Invideo GPT:ChatGPT – Video Maker by invideo AI (openai.com),可以实现一键短视频生成。如果你是 ChatGPT Plus 用户,就可以尝试这个应用程序。

在对话框中输入简单的描述文字,Invideo 就会自动生成包含字幕、配音、素材的短视频。

  1. Boximator

该项目由字节跳动发布,可以控制图像中物体的运动路径,生成一段短视频:Boximator: Generating Rich and Controllable Motions for Video Synthesis。从 Boximator 提供的演示动画可以看出,该工具可以精确控制图像中人物、物体的运动路径和结束位置。输入文本提示,设定好物体的移动方向,即可按照我们的设定,把图像转换为短视频。

目前,以 pika、runway gen two 为代表的视频生成工具,只能向水平、垂直、纵深方向移动,Boximator 则可以设定任意的移动方向,效果和真实度远超同级别对手。该项目还没有正式发布,感兴趣的同学可以了解详情。

  1. Heygen新功能

近期,heygenlab 发布了 streaming avatar 功能,可以和数字人实时交互。streaming avatar 接入了 chatGPT,从列表中选择一个数字人,就可以开始聊天。

用户可以通过文本、语音的形式和虚拟主播互动。该功能更适合作为 24 小时数字人直播使用。用户还可以使用微调模型,为数字人添加特定的知识库。我把地址放在下方大家可以尝试。

  1. Image to Music V2

该工具可以读取图像,根据图像内容生成匹配场景的描述,把提示词应用到音乐生成模型,即可生成背景音乐。目前,Image to Music V2 可以在 HuggingFace 使用:Image to Music v2 – a Hugging Face Space by fffiloni,上传一张图像,选择一个音乐生成模型,点击生成按钮。例如,选择 Meta 最新的 Audio LDM2 模型,Image to Music V2 会根据图像内容生成符合当前场景的提示词,然后根据文本描述生成一段音乐。从本地上传新的图像生成音乐,上方自动生成的描述文本可以手动编辑,最后切换到 google 的 musicgen 模型,生成一段背景音乐。Image to Music V2 完全免费,大家可以尝试。

  1. Dynami Crafter

近期,腾讯旗下的视频生成模型 Dynami Crafter 完成了更新,支持更高分辨率的视频:GitHub – Doubiiu/DynamiCrafter: DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

Dynami Crafter可以生成更大运动幅度、更加稳定的视频,不过该工具对显卡的要求很高。大家可以在 Replicate 尝试:camenduru/dynami-crafter-576×1024 – Run with an API on Replicate

发表回复