今天为大家总结一周AI资讯:

本周,Pika向 Creative Partner 开放了全新的视频编辑功能。从演示动画可以看出,用户可以通过简单的文本命令,控制视频中特定的物体,且保持视频其他部分的结构不变。例如,
借助该功能,我们只需上传一段参考视频,就可以根据不同的提示词,合成不同的动作和场景,效果非常真实。
目前,该功能仅面向创意合作伙伴发布,可用于轻松制作各种视频特效。

Vid.fun是 Remix 新发布的视频生成器,能够一键生成带有背景音乐、音效连续的视频。目前,免费用户可以获得 65 点额度。
Vid.fun放支持通过提示词、网站链接、视频音乐链接以及本地图像素材生成视频。
下一步,选择一种风格和视频比例,开始生成故事版。如果对自动生成的片段不满意,也可以选中其中一个画面,点击“重新生成”。最后,选择一种视频模型,点击“生成”按钮即可。
Vid.fun集成了多种主流 AI 工具和视频生成工作流,可以将你的想法快速转换为创意视频。该工具支持生成多种比例的视频,且支持从本地上传图像素材,制作剧情动画。
3. Krea Video Training – 视频风格训练服务

本周,Krea 推出了基于开源模型的视频训练服务。用户可以上传任意类型的视频数据,训练专属视频风格。其中,图像可用于学习风格,视频则可用于风格和动作学习。
用户需要上传至少 3 段素材,方可开始训练视频风格。目前,该功能仅面向高级用户开放,感兴趣的同学可以尝试。

Starvector 是一种 SVG 生成模型,可以根据文本提示或参考图,生成高质量可编辑的 SVG 矢量图。该模型使用了 Vision-Language 架构,能够完成复杂的 SVG 生成任务。
目前,该模型已经开源。无论你有没有设计基础,都可以通过该模型制作 SVG 图形。
5. Grok 图像编辑
本周,马斯克旗下的 Grok 模型面向高级用户推出了图像编辑功能。该功能类似于 Gemini 和豆包的图像编辑功能,支持文本命令编辑图像。
从演示效果来看,Grok 能够准确渲染文本,每次可生成 4 张图像。目前,高级用户已经可以在网页端、移动端进行图像编辑,能够完成色彩替换、表情更换、水印移除等常规操作。
借助多模态模型的原生图像生成功能,图像编辑也会变得更加简单。在不久的将来,AI 智能图像编辑功能将会成为各大平台的标准配置。

本周,阿里巴巴发布了一个名为 Large Animatable Human Reconstruction(LHM) 的模型。该模型可以基于静态图像和参考动作序列,转换为动态视频。
LHM 采用了多模态变换器架构,利用注意力机制对人体位置特征和图像特征进行有效编码,从而详细保留了服装的几何形状和纹理。同时,该模型还使用了全新的编码方案,可以进一步保留人物的面部细节和特征。
LHM 可以从输入图像中提取身体和头部图像标记,并利用多模态身体头部变化器,将三维身体标记并解码为高斯参数。通过演示画面可以看出,该模型支持不同风格的图像合成,视频的效果也非常不错。
7. Flora 更新 – 接入 Google Gemini 2.0

本周,Flora 在 CANVAS 中接入了 Google Gemini 2.0 模型,支持使用自然语言编辑图像,并将图像转换为视频。
登录 Flora 并新建一个画布,就可以使用该功能。我们上传一张参考图,并在此基础上添加多个节点,生成不同角度的人物形象。或者,使用 Flux 模型生成一张图像,并通过文本命令改变人物的面部表情。
与 Gemini 不同的是,Flora 提供了视频生成功能。用户可以选择任意的视频模型,将静态图像动态化。Flora 为用户提供了 2,000 点免费额度,可生成 4 段持续 5 秒钟的短视频,大家可以尝试。
8. SPATIAL LM – 新发布的 3D 大语言模型

SPATIAL LM 是一种新发布的 3D 大语言模型,能够自动识别视频中的建筑元素,并生成结构化的 3D 场景输出。
该模型能够增强空间推理能力,适用于嵌入式机器人、自主导航和复杂三维场景的分析任务。SPATIAL LM 在大规模数据集上进行训练,能够准确反映真实世界的场景,确保物理正确性。未来,该模型将会扩展到更多应用场景,并可作为智能助手使用。
9.腾讯混元3D

Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型。系统采用两阶段生成流程:首先生成无纹理的几何模型,再合成高分辨率纹理贴图。包含两个核心组件:Hunyuan3D-DiT(几何生成模型)和 Hunyuan3D-Paint(纹理合成模型),分别用于生成精确的几何结构和生动逼真的纹理。
Hunyuan3D 2.0的主要功能
高分辨率 3D 模型生成:通过两阶段生成流程,先生成无纹理的几何模型,再为其合成纹理贴图,有效分离了形状和纹理生成的复杂性。
高质量生成效果:在几何细节、条件对齐和纹理质量等方面全面优于现有的开源和闭源模型。
多样的使用方式:支持通过代码调用、Gradio 应用、Blender 插件以及官方网站快速体验。

这周AI工具太炸了,Pika视频编辑能精准改物体超实用,腾讯3D建模直接两段生成超精细模型,还有Starvector开源矢量图生成,手残党也能做设计。SPATIAL LM连建筑都能3D识别,打工人做PPT终于有救了