2025年11月第2周AI资讯

今天带大家快速盘点这一周最值得关注的 五大 AI 热点


一、Higgsfield Recast:一键换脸换角色,视频创作进入“零门槛时代”

AI 视频平台 Higgsfield 近期正式推出了全新 Recast 功能,让视频创作者可以做到“只传两张素材,马上换主角”。

你只需上传:

  • 一个参考视频
  • 一张目标人物的图像

系统即可在几分钟内自动将原视频中的人物替换为你指定的角色,且能 保持动作、表情、口型与声音同步,几乎无需任何剪辑技巧。

更厉害的是,Recast 还支持:

  • 多语言配音
  • 场景背景变化
  • 真人与卡通/玩偶等风格的互换

目前 Recast 仅支持 单人视频 的动作捕捉合成,但已经足够应付短视频创作、电影片段改编、角色玩法等多个热门领域。

毫不夸张地说,Recast 让“AI 视频换脸”从技术活变成了“点点鼠标就能做的事情”。


二、OpenAI 发布 GPT-5.1:更快、更聪明、更会思考

本周,OpenAI 重磅推出 GPT-5.1 系列模型,包括两个版本:

  • GPT-5.1 Instant:速度更快
  • GPT-5.1 Thinking:推理能力最强

官方公布的测试成绩显示,5.1 在数学测试、编程竞赛和跨学科推理上全面超越 GPT-5。新的 Thinking 模式还支持 自适应推理,能够根据任务自动决定“思考多久”,既不浪费算力,也能给出更严谨的答案。

语气方面,GPT-5.1 更偏向自然、亲切,更像一个真实且熟练的助手。

目前该模型已向付费用户开放,将在数日内向所有用户推送。

AI 助手正在变得越来越“会思考”,未来或许不再需要我们告诉它该怎么做,而是它告诉我们“我已经替你想好了”。


三、ElevenLabs Scrivener V2.6:150 毫秒延迟的实时语音转录来了

ElevenLabs 再次发布重磅产品——实时语音转录模型 Scrivener V2.6

这款模型主打两个特性:

  • 150ms 超低延迟
  • 全球最高实时语音识别精度

Scrivener 支持 90 多种语言,可处理专业术语、复杂长句,还带有“预测式转录”能力,能提前推断你接下来的语句,进一步提升流畅度。

适用场景极为广泛:

  • 实时会议记录
  • 多语种直播字幕
  • 智能语音助手
  • 实时翻译服务

与同类产品相比,Scrivener 在延迟和准确率上都处于高位,目前已经开放 API,开发者可以直接调用。


四、Google NanoBanana 2 曝光:能把 GTA 变成真实世界?

Google 旗下的 NanoBanana 2 模型预计将在一周内正式发布,但模型还没正式亮相,各种测试图像已经在社区疯传。

根据泄露的样例:

  • 能将静态二维图片转换为 超真实的 3D 手办风格图像
  • 能把 GTA 游戏画面“一键真实化”
  • 能处理高动态素材,让虚拟世界更接近真实镜头

从这些展示效果来看,NanoBanana 2 在 图像拟真度、材质重建、空间感 上有惊艳的提升,很可能成为今年 AI 图像生成领域的又一热门工具。

如果你是游戏玩家、3D 艺术从业者,值得密切关注。


五、WorldLabs Marble:一句话生成可编辑 3D 世界

WorldLabs 发布了新的 3D 创作工具 Marble,它可以从文本、图片或视频中 自动生成可编辑的 3D 世界

你只需要:

  1. 上传一张室内照片
  2. 输入“把沙发换成深色北欧风”
  3. 点击 Create World

系统就能自动生成可漫游、可编辑、可导出的 3D 场景。

这意味着:

  • 室内设计师可以秒级生成方案
  • 游戏开发者可以一键创建关卡
  • 影视制作可以快速搭建三维场景

AI 正在把“世界建模”变成像修图一样简单的事情。


六、Flux 2 也要来了:黑森林实验室暗示即将发布

最后一个值得关注的消息来自 Black Forest Labs(黑森林实验室)。

CEO 亲自发文宣布:

Flux 2 已完成测试,即将在竞技场(Arena)上线并开放 API。

结合目前曝光的图像,Flux 2 的生成能力将进一步提升真实感与空间一致性,有望成为下一代顶级图像模型之一。

这是Github上的地址:GitHub – fluxcd/flux2: Open and extensible continuous delivery solution for Kubernetes. Powered by GitOps Toolkit.

发表回复