2026新年快乐,祝大家新年所求皆所愿,所行皆所达。今天为大家总结一周的AI资讯:
1. LTX2:4K音画同步开源新标杆

本周开源了LTX2模型,被认为是VO3的最佳替代方案 。该模型支持文本和图像生成视频,且完全开源模型权重、代码和Benchmarks 。LTX2最显著的特征是能够一次性生成长达20秒的4K超清画面,并原生支持音画同步与口型同步,能够呈现具备完整情节的视频效果 。此外,用户可以通过提示词精确控制镜头角度、视频节奏和叙事风格,甚至能在本地消费级显卡上运行 。LTX2还内置了Lora微调机制,允许用户使用少量素材训练出专属风格模型,确保品牌视觉的一致性。+3
2. Manus:对标ChatGPT的高效AI代理

被Meta收购后的Manus首次展示了其演示画面,其目标是证明其估值远高于20亿美元。在与ChatGPT的对比中,Manus代理展现出了极高的效率,能以更快的速度将文章转换为内容详实的信息图表。由于集成了Nano Banana模型,Manus产出的图表更具视觉冲击力。在建站测试中,其最强的1.6max模型能够快速完成深度调研并打造出内容详实的网站,产出效率远超同类产品。
3. Anygen:字节跳动推出的全能生产力工具

随着AI代理市场的火爆,字节跳动近期上线了Anygen工具 。Anygen支持通过文本和语音命令,将语音、照片和链接直接转换为可编辑的结构化文档、幻灯片和数据分析图表,满足绝大部分办公场景需求 。该工具同样借助Nano Banana模型,能够一键生成脚本和包含连续角色的完整图文故事,例如将童话故事制作成绘本 。此外,用户还可以上传Excel报表,要求Anygen按需生成可视化演示文稿 。
4. ChatGPT Health:OpenAI开启AI医疗新篇章

OpenAI本周宣布推出ChatGPT健康功能,旨在保障用户个人隐私的前提下,让用户实时查看健康状况并规划就医。ChatGPT Health可以作为个人私人医生,通过链接电子医疗记录提供个性化的分析和数据。目前该功能仅面向少数用户开放,预计在未来数周内推向全部用户。需要注意的是,该工具定位为健康管理,并不直接用于医疗诊断。
5. NijiJourney V7:动漫创作的连贯性飞跃

本周NijiJourney发布了V7版本,大幅提升了图像的连贯性 。无论是角色的五官还是身体特征,在生成过程中都能保持高度一致,这将使动漫创作变得更加简单高效 。V7版本还增强了对提示词的理解能力,并新增了参考图风格迁移功能,能够将特定参考图的风格精准迁移到新生成的图像中。
6. Higgsfield Relight:首个3D精准重新打光工具

Higgsfield本周推出了全新的重新打光功能Relight,它能模拟电影摄影棚环境,改变光源的方向、色彩、曝光度和柔光效果。Relight可以在保持角色一致的前提下,精确控制光照效果,并为用户提供了六种预设,支持进行3D精准定位。用户只需导入图像或视频,选择打光方向即可生成,这使其成为影视后期制作的必备工具。
7. Google Vids:集成View 3.1的数字人升级

Google Vids本周完成了重大升级,通过集成先进的View 3.1模型,生成的虚拟形象更加逼真,表情和唇形同步也更加流畅 。该工具可以和Google Doc连接,用于制作办公培训、演示等场景的动画 。Google Vids能将用户输入的提示词或上传的文档,一键转换为包含数字人和音频播报的演示内容 。
8. SkyWork Video:内置编辑器的视频代理

天工SkyWork本周新增了视频生成功能,可以根据提示词生成各种创意视频 。SkyWork同时内置了视频编辑器,允许用户将生成的视频导入时间轴,并保证视频画面的连贯性 。该工具还支持生成配音、音效以及文本转语音功能,旨在提升产品的易用性,让用户通过预设模板即可快速产出视频 。
9. Qwen 3D Camera Control:高精度的摄像机控制模型

这是基于Qwen Image Edit开发的多角度摄像机控制工具,使用了96种摄像机姿态和3000组高丝喷溅数据进行训练 。该模型具备极强的空间理解能力,使用者只需上传一张图片并手动调整角度,即可在几秒钟内生成正面、背面、侧面、低角度或广角拍摄效果 。该模型目前已完全开源,结合视频模型使用可轻松制作包含多角度拍摄的时尚大片 。
10. Higgsfield Cinema Studio 1.5:工作室级视频特效

Hicksfield正式发布了Cinema Studio 1.5,新增了多种光圈控制效果和画面比例,并提供了电影级运镜模式 。用户可以上传素材并将其转换为超宽屏或任意风格的视频 。为了方便使用,该工具还支持项目克隆功能,使用者可以参考特定电影画面的提示词和镜头类型,一键生成类似效果 。
11. Univideo:快手可灵的理解生成一体化框架

快手可灵团队开源了Univideo框架,首次将视频理解、编辑和生成整合到了同一个模型中 。Univideo采用双流设计架构,结合了多模态大语言模型和扩散Transformer模型 。这种设计既保留了文本生成能力,又能精准解析复杂的多模态指令,并保证生成内容在视觉上高度一致,无需在多个模型间切换任务 。
12. Unity Special Lingo:Quest上的混合现实语言学习

Meta推出了开源项目Unity Special Lingo,可应用于Quest设备实现混合语言学习 。使用者可以在真实物理空间中学习英文或其他语言,系统能够识别房间中的物体并提供多语言发音 。Special Lingo还提供发音和跟读练习,并能借助内置语言模型与用户进行互动,让学习过程不再枯燥 。
