今天为大家分享几组重要的人工智能新闻:
一、LumaRAY 2 升级

本周,LumaRAY 2 分别推出了 KeyFrames、Extend 和 Loop 功能,能够实现逐帧精准控制,帮助内容创作者创建无缝过渡的视觉故事。目前,该功能已经可以在 Luma Dream Machine 中使用。
- 关键帧功能:可以在图像之间创建无缝过渡,引导故事节拍,创建多样化的转场特效。
- KeyFrames 功能:可用于制作自然的过渡效果,可在文本-视频、图像-视频模式下使用。
- Extend 功能:主要用于延长视频,并保持故事的连贯和一致性。
- Loop 功能:可用于生成循环播放的动画,让视频看起来更平顺。
登录 Luma Dream Machine 即可尝试该功能。
二、HeyGen新功能

本周,数字人平台HeyGen推出了 UGC 功能,能够生成媲美真人的数字人视频广告,并帮助中小企业节省高额的广告制作和营销成本。
登录到HeyGen,选择 UGC 分类下的数字人即可使用。每个数字人模特都可选择 2-3 个不同的表情和动态,适用于制作不同类型的广告。该功能适合制作 TikTok 带货短视频,大家可以尝试。
三、Manus

这是 Monica 团队新推出的自动人工智能代理,可以独立完成复杂的任务。
Manus不仅可以解答问题,还可分析问题,自动执行任务,交付最终结果。它能够模拟人类的工作方式,自动完成解压缩文件、浏览网页、阅读文档等操作,并从中提取重要信息。
Manus 支持在云端运行,用户可以随时关闭页面,任务完成后会收到通知。该代理不但拥有记忆能力,还可以在处理任务时学习新的知识。
Manus 旨在扩展人类的能力,并开启全新的人机协作模式。
Manus 在 AI 代理评估基准中达到了最新的 SOTA 水平,在实际任务中的执行能力优于 OpenAI 旗下的 Deep Research 代理。
四、QWQ 32B 推理模型

本周,阿里宣布推出具备 320 亿参数的 QWQ 推理模型,性能已经相当于具备 6,700 亿参数的 DTC21 模型。
QWQ 32B 推理模型在多项基准测试中均表现出色,在数学和编码能力方面的成绩已经非常接近 DeepSeek R1。通译团队表示,本次模型改进归功于大规模强化学习技术,比传统奖励机制的效率更高。
QWQ 不但具备强大的推理能力,还可在消费级显卡上完成本地部署。该模型使用了 Apache 2.0 协议开源,任何人都可以免费下载,或者通过阿里云百炼平台调用模型 API 服务。
五、MicDrop

本周,SongLABS 推出了 MicDrop 插件,能够提供实时变声、语音合成等功能,适用于音乐制作和电影配音等场景。例如,MacDrop 的实时变声功能可以将录制的音频优化为专业的声音效果。
MicDrop 提供了 7 天免费试用服务,输入邮箱地址即可下载软件,大家可以尝试。
六、LTX 新模型
本周,LTX 开源了 LTXV 0.95,号称处理速度最快的视频生成模型。
LTXV 具备更好的运动一致性,且支持多个关键帧,支持向前后扩展视频。在精细度和分辨率方面也有了明显的提升。Comfui 宣布对该模型原生支持,大家可以尝试各种类型的工作流。
通过多组测试,LTXV 0.95 模型在图像-视频模式方面表现非常出色。大家也可以访问 LTX Studio 的官网,免费尝试该模型。
七、DiRhythm

DiRhythm 是全球首个基于扩散模型的端到端音乐模型,能够在 10 秒内生成一首完整且包含人声和伴奏的歌曲。
DiRhythm 比 MusicLM 模型生成速度快 50 倍,且支持输入歌词和风格提示词,在 10 秒钟内生成一段 5 分钟左右的音频。该模型同时支持上传参考音频和多种风格的音乐,大家可以尝试。
八、Runway

本周,Runway 正在面向部分用户测试 Video Restyle 功能。该模式可以基于参考视频和一张参考图完成视频风格转换。可以借助该功能替换视频中的人物、物体和背景图像,合成全新的视频。
目前,Creative Partners 已经可以提前使用 Video Restyle 功能。从测试画面可以看出,用户只需截取参考视频中的一个帧并进行风格转换,即可一键替换原视频的风格。
