2月第二周AI资讯

今天，我为大家介绍几种近期发布的人工智能工具:

MLBlocks

近期，MLBlocks 推出了无代码图像处理工作流平台，帮助用户轻松创建适合自己的 WorkFlow。MLBlocks 是可视化简化版的 ComfyUI，操作也非常简单。点击链接：ML Blocks | Home，就可以尝试该工具。

登录到后台，点击新建一个项目，左侧工具栏可以选择数十种图像生成、Ai模块、图像编辑模块，选择一个模块，拖动到右侧即可。

使用鼠标滚轮可以缩放工作流的视图，点击模块两侧的接口，即可连接多个模块，设定工作流的顺序。

例如，设置一个简单的 background remover 工作流，上传一张图像点击运行按钮，即可去除背景。添加 change canvas 模块，设置好输出图像的宽高比，点击运行按钮，添加该模块后，工作流就会自动完成背景移除，输出 1:1 比例的图像。此外，添加 upscale 模块到工作流，还可以把生成的图像放大。ML Blocks 可以免费使用，用户可以设计任意的工作流，用于批量处理图像，大家可以尝试。

MGIE

近期，Apple 发布了开源图像编辑模型 MGIE：[ICLR’24] MGIE (mllm-ie.github.io)。该工具结合了多模态大语言模型和图像编辑模型，用户只需输入自己的想法，就可以完成图像编辑。例如，我们可以通过英文提示词，改变参考图的背景样式和色彩。在和同级工具的对比中，MGIE 可以更准确的理解提示词内容。

MGIE 提供了在线 demon，点击链接：128.111.41.13:7122，就可以尝试该工具。

例如，上传一张需要编辑的图像，输入英文提示词，即可替换画面的整体色调。选择一张新的图像，输入 “make cloth yellow” 提示，就可以把人物的服装替换为黄色，效果非常不错。

上传一张花店中的女性图像，输入 “as if the flower shop was library” 提示词，我们可以看到，在保持图像整体结构的前提下，背景已经被替换成了图书馆。

上传一张黑色的眼镜，输入 “make the frame red” 提示，即可把镜框替换为红色。

MGIE 还支持局部修改，输入提示词，就可以更改人物的头发颜色。

总之，MGIE 的推出，将会大大简化图像编辑的流程。如果能够接入语音交互模型，我们就可以通过对话的形式，完成图像修改。

Invideo GPT：

本周，知名的视频生成平台 Invideo 在 GPT Store 推出了 Invideo GPT：ChatGPT – Video Maker by invideo AI (openai.com)，可以实现一键短视频生成。如果你是 ChatGPT Plus 用户，就可以尝试这个应用程序。

在对话框中输入简单的描述文字，Invideo 就会自动生成包含字幕、配音、素材的短视频。

Boximator

该项目由字节跳动发布，可以控制图像中物体的运动路径，生成一段短视频：Boximator: Generating Rich and Controllable Motions for Video Synthesis。从 Boximator 提供的演示动画可以看出，该工具可以精确控制图像中人物、物体的运动路径和结束位置。输入文本提示，设定好物体的移动方向，即可按照我们的设定，把图像转换为短视频。

目前，以 pika、runway gen two 为代表的视频生成工具，只能向水平、垂直、纵深方向移动，Boximator 则可以设定任意的移动方向，效果和真实度远超同级别对手。该项目还没有正式发布，感兴趣的同学可以了解详情。

Heygen新功能

近期，heygenlab 发布了 streaming avatar 功能，可以和数字人实时交互。streaming avatar 接入了 chatGPT，从列表中选择一个数字人，就可以开始聊天。

用户可以通过文本、语音的形式和虚拟主播互动。该功能更适合作为 24 小时数字人直播使用。用户还可以使用微调模型，为数字人添加特定的知识库。我把地址放在下方大家可以尝试。

Image to Music V2

该工具可以读取图像，根据图像内容生成匹配场景的描述，把提示词应用到音乐生成模型，即可生成背景音乐。目前，Image to Music V2 可以在 HuggingFace 使用：Image to Music v2 – a Hugging Face Space by fffiloni，上传一张图像，选择一个音乐生成模型，点击生成按钮。例如，选择 Meta 最新的 Audio LDM2 模型，Image to Music V2 会根据图像内容生成符合当前场景的提示词，然后根据文本描述生成一段音乐。从本地上传新的图像生成音乐，上方自动生成的描述文本可以手动编辑，最后切换到 google 的 musicgen 模型，生成一段背景音乐。Image to Music V2 完全免费，大家可以尝试。

Dynami Crafter

近期，腾讯旗下的视频生成模型 Dynami Crafter 完成了更新，支持更高分辨率的视频：GitHub – Doubiiu/DynamiCrafter: DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

Dynami Crafter可以生成更大运动幅度、更加稳定的视频，不过该工具对显卡的要求很高。大家可以在 Replicate 尝试：camenduru/dynami-crafter-576×1024 – Run with an API on Replicate

这篇文章有一个评论

发表回复取消回复

你可能也喜欢

12月第四周AI资讯

2025年8月第3周AI资讯

10款最佳改变发型的AI应用

这篇文章有一个评论

发表回复 取消回复

发表回复取消回复