2025年6月第3周AI资讯

今天再为大家分享几组重要的人工智能新闻：

MiniMax 海螺推出了全新的 02 视频模型，具备更真实的肢体动作、电影级的解析度，以及更强大的提示跟踪能力和对视觉美感的增强。

根据最新的视频模型竞技场排名，海螺 02 模型的整体得分已经接近字节新发布的 SeedDance 1.0 模型，并领先于 VOE3 Preview 模型。目前，该模型已经开启了内部测试。点击视频下方链接即可体验。登录后台，选择最新的 02 模型即可。

该模型可输出最高 1080p、持续 10 秒钟的视频。通过多组测试可以看出，02 模型不但能够生成电影级动态效果，还可准确渲染文本，大家可以尝试。

本周，Krea 面向全部用户推出了Krea-2 图像生成模型，登录即可使用。和其他模型不同的是，Krea并不限制输出图像的比例，用户可以随意调整至任意宽高比。

该模型可以免费使用，且可以在几秒钟内输出四张高达 4K 分辨率的图像。生成的图像可进行画质增强、图像升视频等操作，无论是人像作品还是创意图像，效果均非常出色，且可在 3 秒内生成，大家可以尝试。

本周，Higgsfield 发布了先进的图像编辑模型 Canvas，能够将产品直接添加到参考图中，实现像素级完美控制。

打开 Higgsfield 并选择 Canvas 功能，上传一张模特图像，并遮罩需要添加商品图的区域，然后添加任意类型的商品图，即可合成一张超真实的广告效果图。

Canvas 还支持替换人物的发型和面部特征，让创意广告设计变得更加简单。结合 Higgsfield 的 Speak 和 Camera Movements 工具，任何人都可以轻松设计专业的短视频广告。

这是浙江大学和 vivo 联合推出的开源视频虚拟试穿项目，能够将服装添加到任意视频中的人物身上，并保持连续、真实和清晰的服装细节。

用户只需上传一段人物视频和单张参考图，即可生成动态虚拟试穿视频，并保证服装细节和动作的真实性。即使是包含舞蹈、转身等复杂动作的参考视频，也可保持服装和动作的稳定性。

此外，该工具还支持图像虚拟试穿。点击下方链接即可了解详情。

5. 豆包播客功能上线

本周，豆包新增了博客生成功能，登录即可使用。从本地上传 PDF 文件或者网页地址，即可生成一段双人对话博客。例如上传一段 PDF 格式的腾讯年报，点击“生成博客”即可。

近期，在线视频剪辑工具 FlexClip 完成了更新，增加了很多新功能。

其中 PPT to Video 功能可以将 PPT 或 PDF 格式的文件一键转换为带有配音、字幕、可编辑的视频。

AI Text-Based Editing 功能，则可以将博客和视频转换为脚本，并自动完成编辑。该功能可以进一步简化长视频的剪辑流程。

首先上传一段视频，点击“转录”按钮，完成转录后，选中一段不需要的文字，即可删除对应的片段。

AI Sound Effect 功能，则可以为视频自动匹配音效。上传视频并输入描述文字，点击“生成”按钮即可。此外，还有声音克隆等新功能，大家可以尝试。

这是全球首款主动式 AI 代理程序，能够感知上下文、增强记忆，并能在提出要求之前实时采取行动。

Proactor 无需等待提示，支持加入对话，提供实时转录和摘要，及时分析讨论内容，自动发现潜在的需求和可执行任务。

Proactor 还会根据激发的好奇心主动研究出现的主题，并立即执行流程中确定的任务。在使用者提出问题之前，就能获得实时见解和答案、会议记录和任务处理。

本周，Midjourney 正式发布了首个视频生成模型——V1 video model，支持生成 5–20 秒钟的视频。该模型仅支持“徒生视频”模式，一次可生成 4 段视频。在开启“视频扩展模式”后，还可延长 4 秒钟，最长可生成持续 20 秒的视频。

V1 模型支持 “low motion” 和 “high motion” 两种模式，分别适用于静态场景中的细微动作生成，以及较大范围的摄像机或角色移动效果。用户可以根据使用场景的不同手动切换模式。

价格方面，生成 20 段持续 4 秒的视频约消耗 4 美元，比 VOE3 模型更具性价比。V1 模型继承了 Midjourney 在图像生成中的高品质和艺术风格，缺点则是画质和分辨率过低。

在与其他模型的对比中，V1 model 的视频延伸能力更加出色。不但可以保持人物和画面的一致性，在流畅度和连续性方面也有更好的表现。