1月第三周AI资讯
  • Post author:
  • Post category:AI
  • Post comments:0评论

近期,阿里推出了一个名为DDcolor的开源模型,可以实现黑白照片智能上色。

从提供的样本可以看出,DDcolor可以很好的还原人像和自然景观。DDcolor模型使用imageNet数据集训练,其中包含128万张自然图像。该模型的缺点是无法智能修复低分辨率图像且不支持黑白漫画色彩还原。

点击链接,就可以在Colab体验DDColor模型:GitHub – camenduru/DDColor-colab。首先,上传一张秀兰邓波尔的黑白照片,还原后的肤色和服装色彩都显得很自然。上传一张罗马假日的剧照,我们可以看到还原后的图像具备很强的胶片感和年代,整体效果非常不错。

然后,测试一下自然风景图像,参考图的分辨率很高,还原后的色彩也非常自然。上传一张黑白动物图像,DDcolor也能够准确还原小狗原本的色彩。选择一张风景类图像,处理后的色彩和光影效果都很真实。最后,我尝试对一张动漫图像上色,效果则很一般。DDcolor还可以在阿里魔塔社区免费运行,感兴趣的同学可以尝试。

然后,我在为大家推荐几种近期发布的ai工具:

本周,腾讯发布了强大的Photo Maker工具,可以提取任意人物的面部特征,生成多种风格的图像,无需训练LORA。Photo Maker支持文本转图像功能,以及人物特征混合,或者改变人物的年龄和图像风格。

Photo Maker是一种高效的文本转图像模型。使用堆叠ID嵌入技术,用户可以将任意数量的身份图像导入到PhotoMaker,合并成统一的数据结构。Photo Maker可以结合多个人物的特征,创作个性化图像。例如,提供几张人物面部作为参考,输入提示词,就可以生成新的图像。、

Photo Maker还可以将油画风格的图像转换为真实人像,或者使用风格化提示,把参考图转换为卡通漫画风格的图像。图像融合功能同时支持真实照片和动漫图像,合成后的图像效果非常不错。目前,Photo maker模型已经开源,并提供了在线测试页面:PhotoMaker Style – a Hugging Face Space by TencentARC

MAGNeT是Meta旗下最先进的非自回归模型,可以基于文本提示,快速生成音乐。Magnet提供了六种预训练模型,可以生成10到30秒的音乐。点击链接:GitHub – camenduru/MAGNeT-colab,就可以试用该工具。

这是官方readme文档:audiocraft/docs/MAGNET.md at main · facebookresearch/audiocraft · GitHub

MAGNeT的操作方法非常简单,在对话框中输入提示词,选择一个持续10秒钟的模型,参数保持默认,点击generate按钮,生成两段音乐。MAGNeT提供了多种风格的提示词,大家可以尝试。

本周,阿里推出了Motionshop,可以把视频中的特定人物替换为3D形象,同时不改变视频中的其他场景和人物。被替换的3D模型不但能够还原视频中人物的动作,效果也非常不错。Motionshop会提取视频中人物的动作序列,生成新的3D形象,完成渲染后,再把人物和背景合成,完成视频生成。

点击链接:Animate 3D Motion——AI角色动画 · 创空间 (modelscope.cn),就可以在ModelScope尝试该工具。首先,从本地上传一张15秒内的视频,视频素材不可切换场景,否则无法使用。从下方选择一个模型,开始合成视频。根据视频长度的不同,该过程会持续10分钟以上。大家可以看一下生成视频的效果。如果MothionShop能够加入更多的模型,则可以进一步增加可玩性。

近期,一个名为Resemble的开源项目发布,可以智能消除音频中的杂声,并修复音频中失真的部分,让声音听起来更加自然和清晰。除了音频,还支持包括中文在内的多种语音合成。访问Resemble的主页,就可以尝试该工具。

例如,上传一段街头采访带有背景噪声的音频文件,点击下方的处理,大家可以试听一下增强后的效果。Resemble的推出,将会让音频处理的过程更加简单。点击链接:Resemble Enhance – a Hugging Face Space by ResembleAI,就可以免费尝试该工具。

由阿里推出的动画生成工具Animate Anyone,在近期开放源代码和测试页面。运行Animate Anyone Colab脚本,选择一张参考图和运动序列,点击生成视频。Anime anime只能生成一到两秒左右的视频,效果也很一般。

从多组测试可以看出,Animate Anyone还需要进一步优化,方可生成更高质量的视频。

发表回复