今天为大家总结近一周的AI资讯:
1. Wan2.1 Lora

随着wan2.1 Laura训练代码的发布,civitai 已经上线了很多炫酷的视频特效。
其中包括压扁、飞行、射击、秀肌肉等特效。此外,还有将图像转换为旋转效果的 Lora,大家可以尝试。
大家也可以访问 civitai,下载更多基于wan 2.1微调的 Lora 模型。
2. Vace

这是阿里新发布的视频生成和编辑框架,可以实现物体替换、风格迁移、位置移动等效果。我们可以通过添加动作序列,让静止的人物向指定方向移动;或者通过遮罩原视频中的角色,将其替换为参考图中的人物。
Vace同时支持面部替换,且可以更换图像中的任意物体。结合阿里新发布的wan 2.1视频生成模型,我们就可以轻松制作各种创意视频。
Vace 还可以执行视频重新渲染,并保持原视频的主体结构不变。
3. Quander

这是一款全新的视频生成工具,可以根据一段简单的提示词,生成长达 1 分钟的视频。
Quander 的操作方法非常简单:
- 输入一段提示词,并选择视频的比例,系统会自动生成一段脚本;
- 选择一种预设的风格,或者选择自定义视频风格,Quander 会根据脚本内容自动生成多个人物形象;
- 如果对自动生成的人物不满意,也可以点击“重新生成”按钮。
此外,用户还可以修改图像的提示词,或者手动选择配音员。Quander提供了两种预设工作流,可用于一键生成小说和产品广告视频。只需上传一张产品图,即可自动生成一段带有背景音乐的高清视频。无论在画质还是画面流畅度方面,Quander都有不错的表现。
4. Mirage

这个新发布的模型,能够分析脚本或音频片段,并生成具备真实面部表情和肢体语言的数字人视频。
这是全球首个 UGC 基础模型,能够根据简单的提示词,生成不受版权限制的生动数字人播报员。
Mirage 模型可以进一步降低视频广告的制作成本,无需雇佣演员和摄影师,也可完成创意生成。用户只需上传音频文件,自定义数字人的形象和声音,即可完成视频合成。Mirage 将会终结数字人唇形同步的时代,且可以生成超真实的视频。
此外,大家也可以尝试 Captions 的视频生成功能。Captions 支持中文输入,可以根据提示生成一段吸引人的脚本,然后选择播音员和字幕类型,点击“生成视频”即可。
5. Gemini 2.0 Flash

本周,Gemini 2.0 Flash 推出了图像生成功能,且可以通过对话的形式完成图像编辑。例如,用户可以输入指令,对图像局部进行修改和替换。
Gemini 2.0 Flash 还支持在图像中添加文字,非常适合制作广告海报。登陆 Google AI Studio,选择 Gemini 2.0 Flash Experimental 模型,即可免费体验。从实际测试来看,生成一张图像只需 3 秒钟!
除了生成图像,我们还可以从本地上传图像,进行风格转换和局部修改。更多编辑方法,大家可以自行尝试。
6. Gemma 3

本周,Google 发布了轻量级开源模型Gemma 3,可以在手机和笔记本电脑上快速运行。Gemma 3 的性能介于 Deepseek V3 和 R1 之间,且支持多模态能力,以及 128K 的上下文窗口能力。
Gemma 3 能够在单个 H100 GPU 上运行,适合高校 AI 计算和本地推理。Gemma 3 分为四种尺寸,其中 1B 参数模型可在移动设备上运行,27B 模型的性能最强,对 GPU 的要求也很低。
Gemma 3 具备视觉推理能力,可以根据用户提供的图像和命令,完成图像分析和交互。此外,Gemma 3 还支持同时分析多张图像,完成推理和分析。
7. Gemini Robotics

近期,Google DeepMind 推出了基于 Gemini 2.0 研发的机器人控制模型。无需专门训练,即可适应新的任务和环境。
其中,Gemini Robotics 模型具备视觉、语言和动作能力,可以控制机器人执行任务。Gemini Robotics 12 模型则具备空间理解和推理能力,能够让机器人更好地理解周围环境,并规划行动路径。
Gemini Robotics 模型能够理解不同语言的指令,并通过多模态推理,完成多步骤操控任务。该模型的发布,将会推动家用机器人的研发进程。更多演示画面可访问 DeepMind 查询。

这波AI更新确实让人又爱又愁。Vace这类视频编辑工具让普通人也能玩转特效,但物体替换太逼真也可能加剧虚假信息传播;Quander一分钟生成广告大片,小企业主狂喜,但影视从业者的焦虑怕是又加一层。Gemma3手机跑模型很酷,但轻量化的代价是不是功能阉割?技术越进步,越觉得伦理这堂课得赶紧补上