1月第一周AI资讯

本周,多个强大的人工智能工具发布,值得大家关注。

  1. MewX开启测试:MewXAI Upscaler – Extreme detail image enhancer

本周,由中国开发者创建的在线图像增强平台MewX开启内部测试。前期加入等待列表的用户已经可以提前使用该工具。MewX的界面和Krea、magnific类似,操作也非常简单。使用自己的Google账号登陆就可以获得50点免费额度。

左侧工具栏可以选择不同的模型,设置ai创新度和放大倍率。下方的对话框可以添加正反提示词,用于调整图像的风格和细节。上传一张图像,引擎选择anime,参数保持默认,放大比例选择2倍。原图分辨率比较低,经过MewX放大后,细节得到了很好的修复,同时保持了原始图像的风格。如下图

Myshell是一个基于web3和人工智能技术打造的ai应用定制平台。用户无需任何知识,都可以在Myshell搭建基于大语言模型的个性化聊天机器人。除了LLM , MyShell还在近期加入了图像生成和voice clone功能,进一步丰富了产品库。

本周,MyShell推出了一个名为OpenVoice的开源工具:GitHub – myshell-ai/OpenVoice: Instant voice cloning by MyShell.,可以实现0样本快语言语音克隆。

功能1:精确音色模拟

功能2:模拟不同的播报情感

功能3:跨语言语音克隆

功能4:0样本快语言语音克隆

该功能非常强大,用户无需提供外语样本音频,也能使用自己的音色输出任意的语言。

在最上方输入需要播报的文本选择样本音频,输出语言选择中文即可完成克隆。

使用colab运行OpenVoice还可以使用更多的功能:GitHub – camenduru/OpenVoice-colab。以下是部署完毕后的界面:

人工智能语音克隆技术,让世界变得更美好,让跨语言沟通不再困难。感兴趣的同学可以尝试该工具。

近期,Meta发布了视频转视频模型Flowvid,可以完成视频风格转换或者替换视频主体。尽管Flowvid还没有发布源代码,该工具的推出,也会让视频编辑变得更加有趣。

下面我们来看一下演示视频,Flowvid可以把视频转换为各种风格,或者替换主体和背景的样式。

本周,阿里推出了一个类似DID的框架,可以根据音频内容模拟人物的成型和表情变化。Dreamtalk同时支持中英文,可以实现说话和唱歌的场景。下面为演示视频:

通过视频可以看到Dreamtalk合成的动态头像,唇形和原版视频保持了高度的一致。Dreamtalk还可以融合两张图像,使用指定的表情生成视频。此外,使用不同风格的图像,也可以完成较为真实的口型匹配。Dreamtalk还能模拟唱歌时的唇形,同时支持多语言播报。

近期,Meta推出了一项有趣的技术,可以通过语音生成虚拟人物形象。Audio2photoreal技术的推出,将会让虚拟主播变得更生动操作也变得更简单。

发表回复